<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > 2019深度學(xué)習語(yǔ)音合成指南

2019深度學(xué)習語(yǔ)音合成指南

作者:栗峰 時(shí)間:2019-09-02 來(lái)源:雷鋒網(wǎng) 收藏
編者按:追趕最前沿~

雷鋒網(wǎng)AI科技評論編者按:人工合成人類(lèi)語(yǔ)音被稱(chēng)為語(yǔ)音合成。這種基于機器學(xué)習的技術(shù)適用于文本轉換語(yǔ)音(text-to-speech)、音樂(lè )生成、語(yǔ)音生成、語(yǔ)音支持設備、導航系統以及為視障人士提供無(wú)障礙服務(wù)。

本文引用地址:http://dyxdggzs.com/article/201909/404379.htm

在這篇文章中,我們將研究基于深度學(xué)習而進(jìn)行的研究或模型框架。

在我們正式開(kāi)始之前,我們需要簡(jiǎn)要概述一些特定的、傳統的語(yǔ)音合成策略:拼接和參數化。

拼接方法,需要使用大型數據庫中的語(yǔ)音來(lái)拼接生成新的可聽(tīng)語(yǔ)音。在需要不同語(yǔ)音風(fēng)格的情況下,必須使用新的音頻數據庫,這極大的限制了這種方法的可擴展性。

參數化方法則是用一條記錄下的人的聲音以及一個(gè)含參函數,通過(guò)調節函數參數來(lái)改變語(yǔ)音。

這兩種方法代表了傳統的語(yǔ)音合成方法?,F在讓我們來(lái)看看使用深度學(xué)習的新方法。為了探索當前流行的語(yǔ)音合成方法,我們研究了這些:

●WaveNet: 原始音頻生成模型

●Tacotron:端到端的語(yǔ)音合成

●Deep Voice 1:實(shí)時(shí)神經(jīng)文本語(yǔ)音轉換

●Deep Voice 2:多說(shuō)話(huà)人神經(jīng)文本語(yǔ)音轉換

●Deep Voice 3:帶有卷積序列學(xué)習的尺度文本語(yǔ)音轉換

●Parallel WaveNet:快速高保真語(yǔ)音合成

●利用小樣本的神經(jīng)網(wǎng)絡(luò )語(yǔ)音克隆

●VoiceLoop:通過(guò)語(yǔ)音循環(huán)進(jìn)行語(yǔ)音擬合與合成

●利用梅爾圖譜預測上的條件WaveNet進(jìn)行自然TTS合成

WaveNet:原始音頻生成模型

這篇文章的作者來(lái)自谷歌。他們提出了一種能產(chǎn)生原始音頻波的神經(jīng)網(wǎng)絡(luò )。他們的模型是完全概率的和自回歸的,在英語(yǔ)和漢語(yǔ)的text-to-speech上都取得了最先進(jìn)的結果。

文章鏈接: https://arxiv.org/abs/1609.03499

圖1

WaveNET是基于PixelCNN的音頻生成模型,它能夠產(chǎn)生類(lèi)似于人類(lèi)發(fā)出的聲音。

圖2

在這個(gè)生成模型中,每個(gè)音頻樣本都以先前的音頻樣本為條件。條件概率用一組卷積層來(lái)建模。這個(gè)網(wǎng)絡(luò )沒(méi)有池化層,模型的輸出與輸入具有相同的時(shí)間維數。

圖3

在模型架構中使用臨時(shí)卷積可以確保模型不會(huì )違反數據建模的順序。在該模型中,每個(gè)預測語(yǔ)音樣本被反饋到網(wǎng)絡(luò )上用來(lái)幫助預測下一個(gè)語(yǔ)音樣本。由于臨時(shí)卷積沒(méi)有周期性連接,因此它們比RNN訓練地更快。

使用臨時(shí)卷積的主要挑戰之一是,它們需要很多層來(lái)增加感受野。為了解決這一難題,作者使用了加寬的卷積。加寬的卷積使只有幾層的網(wǎng)絡(luò )能有更大的感受野。模型使用了Softmax分布對各個(gè)音頻樣本的條件分布建模。

圖4

這個(gè)模型在多人情景的語(yǔ)音生成、文本到語(yǔ)音的轉換、音樂(lè )音頻建模等方面進(jìn)行了評估。測試中使用的是平均意見(jiàn)評分(MOS),MOS可以評測聲音的質(zhì)量,本質(zhì)上就是一個(gè)人對聲音質(zhì)量的評價(jià)一樣。它有1到5之間的數字,其中5表示質(zhì)量最好。

圖5

下圖顯示了1-5級waveNet的語(yǔ)音質(zhì)量:

圖6

Tacotron:端到端的語(yǔ)音合成

這篇文章的作者來(lái)自谷歌。 Tacotron是一種端到端的生成性文本轉化語(yǔ)音的模型,可直接從文本和音頻對合形成語(yǔ)音。Tacotron在美式英語(yǔ)上獲得3.82分的平均得分。Tacotron是在幀級生成語(yǔ)音,因此比樣本級自回歸的方法更快。

文章鏈接:https://arxiv.org/abs/1703.10135

這個(gè)模型是在音頻和文本對上進(jìn)行的訓練,因此它可以非常方便地應用到新的數據集上。Tacotron是一個(gè)seq2seq模型,該模型包括一個(gè)編碼器、一個(gè)基于注意力的解碼器以及一個(gè)后端處理網(wǎng)絡(luò )(post-processing net)。如下框架圖所示,該模型輸入字符,輸出原始譜圖。然后把這個(gè)譜圖轉換成波形圖。

圖7

下圖顯示了CBHG模塊的結構。它由1-D卷積濾波器,highway networks和雙向GRU(Gated Recurrent Unit)組成。

圖8

將字符序列輸入編碼器,編碼器將提取出文本的順序表示。每個(gè)字符被表示為一個(gè)獨熱向量嵌入到連續向量中。然后加入非線(xiàn)性變換,再然后加上一個(gè)dropout,以減少過(guò)度擬合。這在本質(zhì)上減少了單詞的發(fā)音錯誤。

模型所用的解碼器是基于內容注意力的tanh解碼器。然后使用Griffin-Lim算法生成波形圖。該模型使用的超參數如下所示。

圖9

下圖顯示了與其他替代方案相比,Tacotron的性能優(yōu)勢。

圖10

Deep Voice 1:實(shí)時(shí)神經(jīng)文本到語(yǔ)音合成

這篇文章的作者來(lái)自百度硅谷人工智能實(shí)驗室。Deep Voice是一個(gè)利用深度神經(jīng)網(wǎng)絡(luò )開(kāi)發(fā)的文本到語(yǔ)音的系統.

文章鏈接:https://arxiv.org/abs/1702.07825

它有五個(gè)重要的組成模塊:

●定位音素邊界的分割模型(基于使用連接時(shí)間分類(lèi)(CTC)損失函數的深度神經(jīng)網(wǎng)絡(luò ));

●字母到音素的轉換模型(字素到音素是在一定規則下產(chǎn)生單詞發(fā)音的過(guò)程);

●音素持續時(shí)間預測模型;

●基頻預測模型;

●音頻合成模型(一個(gè)具有更少參數的WaveNet變體)。

圖11

字母到音素模型將英文字符轉換為音素。分割模型識別每個(gè)音素在音頻文件中開(kāi)始和結束的位置。音素持續時(shí)間模型預測音素序列中每個(gè)音素的持續時(shí)間。

基頻模型預測音素是否發(fā)聲。音頻合成模型則綜合了字母到音素轉換模型、音素持續時(shí)間模型、基頻預測模型等的輸出進(jìn)行音頻合成。

以下是它與其他模型的對比情況:

圖12

Deep Voice 2:多說(shuō)話(huà)人神經(jīng)文本語(yǔ)音轉換

這篇文章是百度硅谷人工智能實(shí)驗室在Deep Voice上的二次迭代。他們介紹了一種利用低維可訓練說(shuō)話(huà)人嵌入來(lái)增強神經(jīng)文本到語(yǔ)音的方法,這可以從單個(gè)模型產(chǎn)生不同的聲音。

該模型與DeepVoice 1有類(lèi)似的流水線(xiàn),但它在音頻質(zhì)量上卻有顯著(zhù)的提高。該模型能夠從每個(gè)說(shuō)話(huà)人不到半個(gè)小時(shí)的語(yǔ)音數據中學(xué)習數百種獨特的聲音。

文章鏈接:https://arxiv.org/abs/1705.08947

作者還介紹了一種基于WaveNet的聲譜到音頻的神經(jīng)聲碼器,并將其與Taco tron結合,代替Griffin-Lim音頻生成。這篇文章的重點(diǎn)是處理多個(gè)說(shuō)話(huà)人而每個(gè)說(shuō)話(huà)人的數據有非常少的情況。模型的架構類(lèi)似于Deep Voice 1,訓練過(guò)程如下圖所示。

圖13

Deep Voice 2和Deep Voice 1之間的主要區別在于音素持續時(shí)間模型和頻率模型的分離。 Deep Voice 1有一個(gè)用于聯(lián)合預測音素持續時(shí)間和頻率曲線(xiàn)的單一模型; 而在Deep Voice 2中,則先預測音素持續時(shí)間,然后將它們用作頻率模型的輸入。

Deep Voice 2中的分割模型使用一種卷積遞歸結構(采用連接時(shí)間分類(lèi)(CTC)損失函數)對音素對進(jìn)行分類(lèi)。Deep Voice 2的主要修改是在卷積層中添加了大量的歸一化和殘余連接。它的發(fā)聲模型是基于WaveNet架構的。

從多個(gè)說(shuō)話(huà)人合成語(yǔ)音,主要通過(guò)用每個(gè)說(shuō)話(huà)人的單個(gè)低維級說(shuō)話(huà)人嵌入向量增強每個(gè)模型來(lái)完成的。說(shuō)話(huà)人之間的權重分配,則是通過(guò)將與說(shuō)話(huà)人相關(guān)的參數存儲在非常低維的矢量中來(lái)實(shí)現。

遞歸神經(jīng)網(wǎng)絡(luò )(RNN)的初始狀態(tài)由說(shuō)話(huà)人聲音的嵌入產(chǎn)生。采用均勻分布的方法隨機初始化說(shuō)話(huà)人聲音的嵌入,并用反向傳播對其進(jìn)行聯(lián)合訓練。說(shuō)話(huà)人聲音的嵌入包含在模型的多個(gè)部分中,以確保能考慮到每個(gè)說(shuō)話(huà)人的聲音特點(diǎn)。

圖14

接下來(lái)讓我們看看與其他模型相比它的性能如何:

圖15

Deep Voice 3:利用卷積序列學(xué)習將文本轉換為語(yǔ)音

文章鏈接:https://arxiv.org/abs/1710.07654

這篇文章的作者提出了一種全卷積字符到譜圖的框架,可以實(shí)現完全并行計算。該框架是基于注意力的序列到序列模型。這個(gè)模型在LibriSpeech ASR數據集上進(jìn)行訓練。

這個(gè)模型的結構能夠將字符、音素、重音等文本特征轉換成不同的聲碼器參數,其中包括Mel波段光譜圖、線(xiàn)性比例對數幅度譜圖、基頻譜圖、譜包絡(luò )圖和非周期性參數。然后將這些聲碼器參數作為音頻波形合成模型的輸入。

圖16

模型的結構由以下幾個(gè)部分組成:

●編碼器:一種全卷積編碼器,可將文本特征轉換為內部學(xué)習表示。

●解碼器:一種全卷積因果解碼器,以自回歸的方式解碼學(xué)習表示。

●轉換器:一種全卷積后處理網(wǎng)絡(luò ),可預測最終的聲碼器參數。

對于文本預處理,作者的處理方式包括:大寫(xiě)文本輸入字符,刪除標點(diǎn)符號,以句號或問(wèn)號結束每句話(huà),并用表示停頓長(cháng)度的特殊字符替換空格。

下圖是該模型與其他替代模型的性能比較。

圖17



上一頁(yè) 1 2 下一頁(yè)

關(guān)鍵詞:

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>