<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > 基于聯(lián)合損失函數的語(yǔ)音增強深度學(xué)習算法

基于聯(lián)合損失函數的語(yǔ)音增強深度學(xué)習算法

作者:楊玲玲(河南工業(yè)貿易職業(yè)學(xué)院信息工程學(xué)院,鄭州 450064) 時(shí)間:2023-07-06 來(lái)源:電子產(chǎn)品世界 收藏
編者按:針對損失函數計算過(guò)程加入關(guān)于人耳聽(tīng)覺(jué)數據的基礎上,設計了一種聯(lián)合損失函數的語(yǔ)音增強深度學(xué)習算法。研究結果表明:本文設計的混合損失函數實(shí)現增強語(yǔ)音質(zhì)量的明顯優(yōu)化。加入注意力機制后能夠促進(jìn)背景噪音的進(jìn)一步減弱,從而獲得更高可懂度。綜合運用聯(lián)合損失函數并融合注意力機制后,可以使神經(jīng)網(wǎng)絡(luò )獲得更優(yōu)質(zhì)量增強語(yǔ)音。利用注意力機制提取特征參數以及結合聯(lián)合損失函數進(jìn)行神經(jīng)網(wǎng)絡(luò )優(yōu)化能夠促進(jìn)增強語(yǔ)音質(zhì)量的提升并達到更高的可懂度。

DNN 根據獲取的語(yǔ)音特征對學(xué)習目標參數進(jìn)行準確估計,目前已被廣泛應用于的研究中[1-2]。各類(lèi)聲學(xué)特征也對方面存在差異。根據傳統語(yǔ)音特征進(jìn)行分析并不能充分反饋語(yǔ)音內部信息,也不能獲得音幀和幀快速轉換的結果,因此該模型并不能準確預測時(shí)頻掩蔽結果,導致實(shí)際性能較差[3-4]。在背景噪聲濾除方面,時(shí)頻掩模值發(fā)揮著(zhù)關(guān)鍵作用,以常規時(shí)頻掩模值進(jìn)行處理時(shí)并未針對語(yǔ)音相位進(jìn)行分析,語(yǔ)音相位譜則對改善語(yǔ)音可懂性具有關(guān)鍵作用[5]。

本文引用地址:http://dyxdggzs.com/article/202307/448398.htm

根據上述研究結果,本文優(yōu)化了以語(yǔ)音增強實(shí)現的網(wǎng)絡(luò )模型與損失函數[6]。為確保代價(jià)函數能夠根據人耳感知特點(diǎn)開(kāi)展分析過(guò)程,在上述基礎上設計了一種。針對損失函數計算過(guò)程加入關(guān)于人耳的數據。

1

進(jìn)行深度學(xué)習時(shí),需要利用均方誤差損失函數(MSE)對神經(jīng)網(wǎng)絡(luò )實(shí)施優(yōu)化處理,而MSE 只對增強語(yǔ)音與純凈語(yǔ)音誤差進(jìn)行簡(jiǎn)單數據分析,并未考慮誤差正負因素的影響,也未加入人耳感知的信號。此時(shí)只以MSE 構建損失函數不能確保增強語(yǔ)音達到理想的算法處理效果[7]。

采用頻域加權分段的信噪分析方法可以對語(yǔ)音可懂度進(jìn)行預測。以下為頻域加權分段信噪比表達式:

1688652699106392.png

(1)

式中,L 表示時(shí)頻信號幀數,K 表示頻帶數,x(I,k)是第 l 幀第 k 個(gè)頻帶中包含的純凈語(yǔ)音信號幅度,image.png屬于第 l 幀第 k 個(gè)頻帶包含噪聲語(yǔ)音的幅度譜,W(I,k)為作用于各時(shí)頻單元幅度譜的感知權重系數。

本文從語(yǔ)音信噪比特征出發(fā),對以上函數實(shí)施動(dòng)態(tài)結合,由此得到聯(lián)合優(yōu)化代價(jià)函數。建立了動(dòng)態(tài)系數:

a(I,k)=1688652836916519.png   (2)

上述系數與時(shí)頻單元信噪比存在直接關(guān)聯(lián),SNR(l,k) 表示第l 幀第k 個(gè)頻帶對應的信噪比數據,同時(shí)根據各時(shí)頻單元信噪比獲得相應的動(dòng)態(tài)系數,處于較高信噪比條件下時(shí),動(dòng)態(tài)系數接近1。

在聯(lián)合代價(jià)函數中融合了人耳心理聲學(xué)感知的內容[8],以此訓練網(wǎng)絡(luò )來(lái)實(shí)現性能優(yōu)化的目標,在確保提升話(huà)音質(zhì)量的前提下使增強話(huà)音具備更高可懂度。

2 基于的語(yǔ)音增強算法

以聯(lián)合損失函數建立語(yǔ)音增強算法經(jīng)多次重復訓練后,能夠從含噪語(yǔ)音幅度譜內獲得估計增強語(yǔ)音幅度譜。圖1給出了系統框圖。

image.png

圖1 基于聯(lián)合損失函數的語(yǔ)音增強算法系統框圖

時(shí)頻掩蔽因素是對神經(jīng)網(wǎng)絡(luò )產(chǎn)生影響而引起語(yǔ)音增強性能差異的重要條件,采用傳統學(xué)習方法進(jìn)行處理時(shí)只需對語(yǔ)音幅度進(jìn)行分析。確定混合特征參數與學(xué)習目標后,再對神經(jīng)網(wǎng)絡(luò )開(kāi)展輸入、輸出訓練,同時(shí)利用最小均方誤差優(yōu)化網(wǎng)絡(luò )算法。再以BP 算法反向傳遞方式完成網(wǎng)絡(luò )參數的修正。從每次訓練的結果中選擇最優(yōu)性能的網(wǎng)絡(luò )模型進(jìn)行記錄后建立測試網(wǎng)絡(luò )模型。

本文選擇聯(lián)合損失函數對兩者差異進(jìn)行評價(jià),記錄最優(yōu)性能的網(wǎng)絡(luò )模型參數。進(jìn)行測試時(shí),先將含噪語(yǔ)音幅度譜加入經(jīng)過(guò)訓練的模型內,之后通過(guò)模型對增強語(yǔ)音幅度譜進(jìn)行預測,最后以語(yǔ)音相位參數完成信號重構。

3 實(shí)驗結果分析

3.1 實(shí)驗數據的選取

以上語(yǔ)音數據都是由IEEE 語(yǔ)音數據庫提供,之后從NOISEX-92 噪聲庫內提取Pink、Factory 與White 三種噪聲信號,這些信號保持一致頻率。按照同樣信噪比把剩余50 條純凈語(yǔ)音與噪聲后半段進(jìn)行混合后建立測試集。

本文設定語(yǔ)音頻率為16 kHz,并以語(yǔ)音幅度譜作為輸入語(yǔ)音特征。各項網(wǎng)絡(luò )參數見(jiàn)表1。

1688653008963247.png

3.2 對比實(shí)驗分析

為了對本文建立的聯(lián)合損失函數與自注意力機制進(jìn)行有效性驗證,構建得到表2 的對比算法。

1688653107817671.png

從表3~5 中可以看到各噪聲條件下的PESQ 值。其中,表3 顯示,信噪比等于-5dB 的情況下,根據算法1 與2 測試結果可以發(fā)現,在各類(lèi)噪聲條件下,PESQ值提升均值達到0.13,同時(shí)STOI 值提升了0.01 的均值水平。比較算法2 與3 可以發(fā)現,PESQ 值提升了0.07,STOI 提升了0.01。

1688653179727558.png

表4 顯示,帶噪語(yǔ)音信噪比等于0 dB 的條件下,根據算法1 與2 可以發(fā)現,各噪聲下的PESQ 值都提升了0.11,此時(shí)STOI 值提升0.02。比較算法2 與3 可以發(fā)現,PESQ 值提升0.09,STOI 提升0.01。

1688653246347242.png

表5 顯示,帶噪語(yǔ)音信噪比等于5 dB 的情況下,比較算法1 與2 可以發(fā)現,各噪聲下的PESQ 值提升達到0.13 的均值,STOI 值提升了0.01。根據算法2 與3的比較結果可知,PESQ 值提升0.07,STOI 提升0.01。

1688653296941702.png

綜合分析表3~5 得到下述結果:

1)通過(guò)對比算法1 與2 測試結果得到:當噪聲與信噪比都不同的情況下,以聯(lián)合損失函數實(shí)現的增強語(yǔ)音PESQ 值提高0.12,STOI 提高0.01。根據算法1 與2 可知,本文設計的混合損失函數實(shí)現增強語(yǔ)音質(zhì)量的明顯優(yōu)化。

2)對比算法2 與3 結果可以發(fā)現,為神經(jīng)網(wǎng)絡(luò )模型設置注意力機制后,可以使增強語(yǔ)音PESQ 值提高0.08,STOI 提高0.01。同時(shí)根據算法2 與3 結果可以推斷,加入注意力機制后能夠促進(jìn)背景噪音的進(jìn)一步減弱,從而獲得更高可懂度。

3)比較算法1 與3 結果可知:以聯(lián)合損失函數對神經(jīng)網(wǎng)絡(luò )開(kāi)展訓練時(shí),同時(shí)加入自注意力機制來(lái)分析理神經(jīng)網(wǎng)絡(luò )特征的情況下能夠實(shí)現增強語(yǔ)音質(zhì)量的顯著(zhù)改善,此時(shí)PESQ 值提升0.2,STOI 提升0.03。

4 結束語(yǔ)

1)本文設計的混合損失函數實(shí)現增強語(yǔ)音質(zhì)量的明顯優(yōu)化。加入注意力機制后能夠促進(jìn)背景噪音的進(jìn)一步減弱,從而獲得更高可懂度。

2)綜合運用聯(lián)合損失函數并融合注意力機制后,可以使神經(jīng)網(wǎng)絡(luò )獲得更優(yōu)質(zhì)量增強語(yǔ)音。利用注意力機制提取特征參數以及結合聯(lián)合損失函數進(jìn)行神經(jīng)網(wǎng)絡(luò )優(yōu)化能夠促進(jìn)增強語(yǔ)音質(zhì)量的提升并達到更高的可懂度。

參考文獻:

[1] BABY D, VIRTANEN T, GEMMEKE J F. Coupled dictionaries for exemplar-based speech enhancement and automatic speech recognition[J]. IEEE-ACM transactions on audio, speech, and language processing, 2015, 23(11):1788-1799.

[2] LI C X, DU Y J, WANG S D. Mining implicit intention using attention-based rnn encoder-decoder model[C]// International conference on intelligent computing. Springer, Cham, 2017: 413-424.

[3] 葛宛營(yíng),張天騏.基于掩蔽估計與優(yōu)化的單通道語(yǔ)音增強算法[J].計算機應用,2019, 39(10): 6.

[4] 鮑長(cháng)春,項揚.基于深度神經(jīng)網(wǎng)絡(luò )的單通道語(yǔ)音增強方法回顧[J].信號處理,2019,35(12): 11.

[5] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feed forward neural networks[C]. Proceedings of the thirteenth international conference on artificial intelligence and statistics, Sardinia, Italy, 2010, 5: 249-256.

[6] MARTIN-DONAS J M, GOMEZ A M, Gonzalez J A, et al. A deep learning loss function based on the perceptual evaluation of the speech quality[J]. IEEE Signal processing letters,2018, 25(11):1680-1684.

[7] 李鴻燕,屈俊玲,張雪英.基于信號能量的濁語(yǔ)音盲信號分離算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2015,(5): 6.

[8] 戴紅霞,唐於烽,趙力.基于維納濾波與理想二值掩蔽的數字助聽(tīng)器語(yǔ)音增強算法[J].電子器件,2019,42(4): 4.

(本文來(lái)源于《電子產(chǎn)品世界》雜志2023年6月期)



評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>