ICLR 2021 | 微軟亞洲研究院精選論文一覽(1)
編者按:機器學(xué)習領(lǐng)域的全球頂會(huì ) ICLR 2021 將于5月3日至7日在線(xiàn)上舉行。今年的 ICLR 會(huì )議一共接收了860篇論文,接受率接近29%。其中,微軟亞洲研究院有多篇論文入選,今天我們精選了5篇為大家進(jìn)行介紹。這5個(gè)工作的研究主題關(guān)鍵詞包括語(yǔ)音合成、代碼智能、自監督、Transformer、復雜決策、預訓練、分類(lèi)任務(wù)......
AdaSpeech: 個(gè)性化定制的文本到語(yǔ)音合成系統
論文地址: https://arxiv.org/pdf/2103.00993.pdf
語(yǔ)音個(gè)性化定制(Custom Voice)是一個(gè)非常重要的文本到語(yǔ)音合成(Text to speech, TTS)服務(wù)。它通過(guò)使用很少量的目標說(shuō)話(huà)人的語(yǔ)音數據,來(lái)微調(適配)一個(gè)源 TTS 模型以合成目標說(shuō)話(huà)人的聲音。然而,當前的語(yǔ)音個(gè)性化定制存在兩個(gè)獨特的挑戰:1)為了支持不同類(lèi)型的說(shuō)話(huà)人,TTS 模型需要支持不同類(lèi)型的聲學(xué)條件,比如不同的口音、說(shuō)話(huà)風(fēng)格、錄音環(huán)境等,這可能和訓練源 TTS 模型使用的聲音數據的聲學(xué)條件非常不一樣;2)為了支持大量的說(shuō)話(huà)人,每個(gè)說(shuō)話(huà)人所需要的微調參數量需要盡可能的小,否則將會(huì )極大地增加語(yǔ)音合成服務(wù)的模型存儲消耗,例如,支持上百萬(wàn)用戶(hù)的參數量將達到上百 PB 的存儲大小。
在本文中,微軟亞洲研究院的研究員們提出了 AdaSpeech,一個(gè)可適配的 TTS 系統來(lái)實(shí)現高質(zhì)量和高效率的語(yǔ)音個(gè)性化定制。AdaSpeech 采用 FastSpeech 2 為基本的模型框架,如圖1所示。AdaSpeech 含有兩個(gè)重要的模塊來(lái)解決上述兩個(gè)個(gè)性化定制的挑戰:1)為了支持含有不同類(lèi)型聲學(xué)條件的語(yǔ)音數據,研究員們設計了不同粒度的聲學(xué)條件建模(Acoustic Condition Modeling);2)為了使用更少的適配參數同時(shí)又保證高的定制音質(zhì),研究員們提出了自適應層歸一化(Conditional Layer Normalization)并應用在模型的****中,當微調模型時(shí),只需調整自適應層歸一化的參數就可極大降低適配參數。
圖1:AdaSpeech 模型架構
聲學(xué)條件建模(Acoustic Condition Modeling)的結構如圖2所示。研究員們將聲學(xué)條件建模分為三個(gè)粒度:說(shuō)話(huà)人級別(speaker level)、句子級別(utterance level)和音素級別(phoneme level),如圖2(a) 所示。在說(shuō)話(huà)人級別,研究員們采用了常見(jiàn)的說(shuō)話(huà)人嵌入向量來(lái)刻畫(huà)說(shuō)話(huà)人特征。在句子級別,使用了一個(gè)聲學(xué)編碼器從參考語(yǔ)音中抽取句子級特征,如圖2(b)所示,其訓練過(guò)程中利用了目標語(yǔ)音作為參考語(yǔ)音,而測試中則隨機選用了該說(shuō)話(huà)人的其它語(yǔ)音來(lái)作為參考語(yǔ)音。在音素級別,研究員們使用了另一個(gè)聲學(xué)編碼器從目標語(yǔ)音中抽取音素級別的特征,如圖2(c)所示。同時(shí),研究員們還訓練了另一個(gè)音素級別的聲學(xué)預測器來(lái)預測這些特征,以便在測試時(shí)使用,如圖2(d)所示。
圖2:Acoustic Condition Modeling 的結構示意
自適應層歸一化(Conditional Layer Normalization)的結構如圖3所示。在語(yǔ)音****的每一層中,自適應層歸一化通過(guò)兩個(gè)線(xiàn)性層從說(shuō)話(huà)人嵌入表征里預測出層歸一化的 scale 和 bias 參數,以更加自適應地調節模型的隱層表征。在適配過(guò)程中,只需要調整自適應層歸一化的相關(guān)參數,極大降低了調整參數量,同時(shí)保證了定制音質(zhì)。
圖3:Conditional Layer Normalization 的結構示意
研究員們在 LibriTTS 數據集上訓練了源 TTS 模型,然后在 VCTK 和 LJSpeech 上進(jìn)行了語(yǔ)音定制。對于每個(gè)定制的說(shuō)話(huà)人,只使用了20條語(yǔ)音進(jìn)行模型適配。結果如表1所示,1)與基線(xiàn)(spk emb)相比,AdaSpeech 在極低的適配參數下(4.9K),取得了極大的定制音質(zhì)提升;2)與基線(xiàn)(decoder)相比,AdaSpeech 取得了相同或略好的定制音質(zhì)前提下,還能極大降低所需參數量(4.9K vs 14.1M),很好的滿(mǎn)足了語(yǔ)音個(gè)性化定制場(chǎng)景的需求。
表1:AdaSpeech 的語(yǔ)音定制結果,MOS 和 SMOS 分別用來(lái)評估生成語(yǔ)音的自然度和相似度,分值范圍為0-5分,分值越高表示越好。
GraphCodeBERT: 用代碼的語(yǔ)義結構學(xué)習代碼表示的預訓練模型
論文地址: https://openreview.net/pdf?id=jLoC4ez43PZ
代碼地址: https://github.com/microsoft/CodeBERT
近年來(lái), 預訓練模型在代碼智能 (code intelligence) 領(lǐng)域中取得了巨大的成功,其能夠支持各種代碼相關(guān)的任務(wù),如代碼檢索、補全、翻譯、糾錯等場(chǎng)景。目前的預訓練模型通常將代碼當作序列而忽視了代碼本身潛在的結構,如抽象語(yǔ)法樹(shù)和數據流等。然而,這些代碼結構提供了重要的語(yǔ)義信息,能夠幫助模型更好地理解代碼。因此,微軟亞洲研究院的研究員們提出了利用代碼的語(yǔ)義結構來(lái)學(xué)習代碼表示的預訓練模型 GraphCodeBERT。
在本文中,研究員們使用了代碼的數據流結構來(lái)表示變量之間的依賴(lài)關(guān)系,如圖4所示。該數據流是一個(gè)圖結構,其中結點(diǎn)為變量而邊表示變量之間的信息流向。該語(yǔ)義結構對理解代碼提供了重要的語(yǔ)義信息。以 v=max_value-min_value 為例,程序員并不總是遵循命名約定,比如 v。而數據流提供了一種理解變量v的語(yǔ)義的方法,即 v的值來(lái)自 max_value 和 min_value。
圖4:源代碼(左側)中數據流(右側)的抽取過(guò)程
基于數據流結構,研究員們提出了 GraphCodeBERT,如圖5所示。該模型將代碼、數據流和文本作為輸入,經(jīng)過(guò)12層的 Transformers 得到代碼的表示。為了將圖結構信息引入 GraphCodeBERT,研究員們提出了基于圖的注意力機制來(lái)過(guò)濾不相關(guān)的信息,具體公式可參考論文。同時(shí)為了利用代碼的語(yǔ)義結構來(lái)學(xué)習代碼表示,研究員們還提出了兩個(gè)基于數據流的預訓練目標:代碼和數據流的變量對齊(橙色),數據流的邊預測(藍色)。
圖5:GraphCodeBERT 模型結構
該模型在代碼搜索、克隆檢測、翻譯和糾錯四個(gè)任務(wù)都進(jìn)行了評測。在這四個(gè)任務(wù)中,GraphCodeBERT 均取得了當前最好的成績(jì),具體細節請見(jiàn)表2-5。
表2:代碼搜索任務(wù)上的模型性能對比
表3:代碼克隆檢測任務(wù)上的模型性能對比
表4:代碼翻譯任務(wù)上的模型性能對比
表5:代碼糾錯任務(wù)上的模型性能對比
同時(shí),通過(guò)樣例分析(如表6)可以看出,當做出一點(diǎn)改動(dòng),如 return a→return b和 sum→mean,文本和代碼的語(yǔ)義都將不匹配。如果不使用數據流,GraphCodeBERT 將預測錯誤。而使用了數據流之后,GraphCodeBERT 對于這些改動(dòng),仍然能夠預測正確,這說(shuō)明了數據流對代碼理解的重要性。
表6:將文本和代碼作為輸入,利用 GraphCodeBERT 預測文本和代碼語(yǔ)義的匹配概率
預訓練還需要監督信息嗎?一文了解自監督訓練的優(yōu)勢
論文地址: https://arxiv.org/pdf/2006.06606.pdf
利用帶有大量人工標注標簽的數據集進(jìn)行預訓練曾經(jīng)是大多數視覺(jué)應用的標準做法。然而隨著(zhù)自監督在多項任務(wù)上完勝有監督預訓練,成本高昂的人工標注似乎只是徒勞。本篇論文深入研究了為什么自監督訓練在遷移任務(wù)上更有優(yōu)勢,以及結合新的發(fā)現,是否有可能改進(jìn)有監督的預訓練。
一、透過(guò)遷移性能觀(guān)察預訓練
結論一:圖像增強顯著(zhù)影響遷移性能
自監督的對比學(xué)習通常依賴(lài)于強烈的圖像增強技術(shù)。這里,研究員們仔細對比了圖像增強技術(shù)對于自監督模型以及有監督模型的影響。在下表中,研究員們發(fā)現圖像增強對于自監督和有監督模型均是有效的,但是對于自監督模型的影響尤為明顯。
表7:預訓練階段的圖像增強對于遷移學(xué)習的影響顯著(zhù)
結論二:自監督的預訓練模型主要遷移了低層和中層的特征,而非高層語(yǔ)義
自監督在線(xiàn)性分類(lèi)任務(wù)上取得了不錯的性能,似乎印證了自監督學(xué)習也學(xué)習到了高層次的語(yǔ)義信息,但本篇論文通過(guò)實(shí)驗質(zhì)疑了這個(gè)結論。當嘗試在不同數據集上進(jìn)行預訓練時(shí),即使這些數據和下游任務(wù)包含的圖像大相徑庭(比如人臉),也能取得不錯的遷移性能。嘗試的數據集如表8所示。相反,當預訓練數據集和下游數據集的底層信息不同時(shí),比如利用游戲合成的駕駛場(chǎng)景數據集,性能會(huì )有一定程度的下降。因此驗證了對比學(xué)習主要遷移了底層和中層特征。
表8:遷移學(xué)習對于預訓練數據的語(yǔ)義信息沒(méi)有明顯的依賴(lài)
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。