2019深度學(xué)習語(yǔ)音合成指南
Parallel WaveNet:快速高保真語(yǔ)音合成
本文引用地址:http://dyxdggzs.com/article/201909/404379.htm這篇文章的作者來(lái)自谷歌。他們引入了一種叫做概率密度蒸餾的方法,它從一個(gè)訓練過(guò)的WaveNet中訓練一個(gè)并行前饋網(wǎng)絡(luò )。該方法是通過(guò)結合逆自回歸流(IAFS)和波形網(wǎng)(WaveNet)的最佳特征構建的。這些特征代表了WaveNet的有效訓練和IAF網(wǎng)絡(luò )的有效采樣。
文章鏈接:https://arxiv.org/abs/1711.10433
為了進(jìn)行有效訓練,作者使用一個(gè)已經(jīng)訓練過(guò)的WaveNet作為“老師”,并行WaveNet‘學(xué)生’向其學(xué)習。目的是為了讓學(xué)生從老師那里學(xué)到的分布中匹配自己樣本的概率。
圖18
作者還提出了額外的損失函數,以指導學(xué)生生成高質(zhì)量的音頻流:
●功率損失函數:確保使用語(yǔ)音不同頻帶的功率,就像人在說(shuō)話(huà)一樣。
●感知損失函數:針對這種損失函數,作者嘗試了特征重構損失函數(分類(lèi)器中特征圖之間的歐氏距離)和風(fēng)格損失函數(Gram矩陣之間的歐氏距離)。他們發(fā)現風(fēng)格損失函數會(huì )產(chǎn)生更好的效果。
●無(wú)論條件向量如何,對比度損失會(huì )懲罰有高可能性的波形。
下圖顯示了這個(gè)模型的性能:
圖19
利用小樣本的神經(jīng)網(wǎng)絡(luò )語(yǔ)音克隆
據雷鋒網(wǎng)了解,這篇文章的作者來(lái)自百度研究院。他們引入了一個(gè)神經(jīng)語(yǔ)音克隆系統,它可以通過(guò)學(xué)習從少量音頻樣本合成一個(gè)人的聲音。
系統使用的兩種方法是說(shuō)話(huà)人自適應和說(shuō)話(huà)人編碼。說(shuō)話(huà)人自適應是通過(guò)對多個(gè)說(shuō)話(huà)人的聲音生成模型進(jìn)行微調來(lái)實(shí)現的,而說(shuō)話(huà)人編碼則是通過(guò)訓練一個(gè)單獨的模型來(lái)直接推斷一個(gè)新的嵌入到多個(gè)說(shuō)話(huà)人語(yǔ)音生成模型。
文章鏈接:https://arxiv.org/abs/1802.06006v3
本文采用Deep Voice 3作為多說(shuō)話(huà)人模型的基線(xiàn)。所謂聲音克隆,即提取一個(gè)說(shuō)話(huà)人的聲音特征,并根據這些特征來(lái)生成給定的文本所對應的音頻。
生成音頻的性能指標決定于語(yǔ)音的自然度和說(shuō)話(huà)人聲音的相似度。作者提出了一種說(shuō)話(huà)人編碼方法,該方法能夠從未曾見(jiàn)過(guò)的說(shuō)話(huà)人音頻樣本中預測說(shuō)話(huà)人聲音嵌入。
圖20
下面是聲音克隆的性能:
圖21
圖22
VoiceLoop:通過(guò)語(yǔ)音循環(huán)進(jìn)行語(yǔ)音擬合與合成
這篇文章的作者來(lái)自Facebook AI研究院。他們引入了一種神經(jīng)文本到語(yǔ)音(TTS)技術(shù),可以將文本從野外采集的聲音轉換為語(yǔ)音。
文章鏈接:https://arxiv.org/abs/1707.06588
VoiceLoop的靈感來(lái)源于一種稱(chēng)為語(yǔ)音循環(huán)的工作記憶模型,它能在短時(shí)間內保存語(yǔ)言信息。它由兩部分組成,其一是一個(gè)不斷被替換的語(yǔ)音存儲(phonological store),其二是一個(gè)在語(yǔ)音存儲中保持長(cháng)期表達(longer-term representations)的預演過(guò)程。
Voiceloop將移動(dòng)緩沖區視作矩陣,從而來(lái)構造語(yǔ)音存儲。句子表示為音素列表。然后從每個(gè)音素解碼一個(gè)短向量。通過(guò)對音素的編碼進(jìn)行加權并在每個(gè)時(shí)間點(diǎn)對它們求和來(lái)生成當前的上下文向量。
使VoiceLoop脫穎而出的一些屬性包括:使用內存緩沖區而不是傳統的RNN,所有進(jìn)程之間的內存共享,以及使用淺層、全連接的網(wǎng)絡(luò )進(jìn)行所有計算。
圖23
下圖顯示了模型與其他替代方案相比的性能表現。
圖24
圖25
利用梅爾圖譜預測上的條件WaveNet進(jìn)行自然TTS合成
作者來(lái)自谷歌和加州大學(xué)伯克利分校。他們引入了Tacotron 2,這是一種用于文本語(yǔ)音合成的神經(jīng)網(wǎng)絡(luò )架構。
文章鏈接:https://arxiv.org/abs/1712.05884
它由一個(gè)循環(huán)的的序列到序列特征預測網(wǎng)絡(luò )組成,該網(wǎng)絡(luò )將字符嵌入到梅爾標度圖譜中。然后是一個(gè)修改后的WaveNet模型,這個(gè)模型充當聲碼器,利用頻譜圖來(lái)合成時(shí)域波。模型的平均意見(jiàn)評分(MOS)為4.53分。
圖26
這個(gè)模型結合了Tacconon和WaveNet的最佳特點(diǎn)。下面是它與其他模型的性能對比:
圖27
雷鋒網(wǎng)小結
現在的語(yǔ)音合成技術(shù)發(fā)展很快,我們希望能夠盡快追趕上最前沿的研究。以上這幾篇文章是當前語(yǔ)音合成領(lǐng)域最重要的進(jìn)展代表,論文、以及其代碼實(shí)現都可在網(wǎng)上找到,期待你能去下載下來(lái)進(jìn)行測試,并能夠獲得期望的結果。
讓我們一起創(chuàng )造一個(gè)豐富多彩的語(yǔ)音世界。
原文鏈接:https://heartbeat.fritz.ai/a-2019-guide-to-speech-synthesis-with-deep-learning-630afcafb9dd
本文轉自雷鋒網(wǎng),如需轉載請至雷鋒網(wǎng)官網(wǎng)申請授權。
原文章地址為2019深度學(xué)習語(yǔ)音合成指南
評論