<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > El axer? 所有雞蛋,呃?Alexa!從噪音中拾取清晰語(yǔ)

El axer? 所有雞蛋,呃?Alexa!從噪音中拾取清晰語(yǔ)

作者:Ofer Shahen-Tov(CEVA聲音技術(shù)部門(mén) 聲音增強算法工程師) 時(shí)間:2021-09-15 來(lái)源:電子產(chǎn)品世界 收藏

基于的控制系統正在經(jīng)歷穩健的增長(cháng),2020 年達到 107 億美元,預計到 2026 年將達到超過(guò) 270 億美元。其優(yōu)點(diǎn)不言而喻:無(wú)手操作,界面大大簡(jiǎn)化。您可以直接說(shuō)出所需的內容,而無(wú)需使用導航菜單。但是,正如我們所有人所經(jīng)歷的那樣,聲音可能有其自身的弊端。當您靠近麥克風(fēng)正對著(zhù)它講話(huà)時(shí),它在安靜的房間里工作正常。但在您的手機上、通過(guò)無(wú)線(xiàn)耳塞以及在繁忙的超市中,這些情形的識別如何呢?識別效果并不總是那么好?;?a class="contentlabel" href="http://dyxdggzs.com/news/listbylabel/label/人工智能">人工智能的命令識別至關(guān)重要,但更重要的是,這種識別首先要有可以正常工作的清晰信號。如果沒(méi)有清晰的音頻輸入,您的識別程序通常會(huì )錯誤識別語(yǔ)音命令。用戶(hù)會(huì )感到沮喪,并很快就停止使用該功能。

本文引用地址:http://dyxdggzs.com/article/202109/428241.htm

1631673473363220.png

(資料來(lái)源:CEVA)

是什么讓語(yǔ)音識別變得困難重重

在一個(gè)相似的問(wèn)題(視覺(jué)識別)中,常規圖像中沒(méi)有太多的模糊之處,至少在光照合理的情況下是如此。但是,聲音檢測必須應付更多的干擾。穩定的背景噪音包括風(fēng)扇、空調、道路噪音。還有其他不太可預測的背景噪音–音樂(lè )、談話(huà)、狗吠、汽車(chē)喇叭、警笛。從這些雜亂紛呈的背景噪音中拾取語(yǔ)音并不簡(jiǎn)單。但通過(guò)采用正確的技術(shù),這是非常有可能做到的。

這種噪聲過(guò)濾技術(shù)的優(yōu)勢不僅僅體現在語(yǔ)音控制方面,它還提高了手機通話(huà)或會(huì )議通話(huà)的清晰度。通話(huà)另一端的聽(tīng)眾將在背景噪音中更清楚地聽(tīng)到您和其他講話(huà)人。

使這一目標成為可能的是音頻前端 (AFE),這是在語(yǔ)音識別或通信之前的一組信號處理階段。此音頻前端可清理原始音頻信號,加強最突出的講話(huà)人(相對于其他輸入源),并減少該信號周?chē)碾s音。

語(yǔ)音活動(dòng)和到達方向檢測

許多基于語(yǔ)音識別的設備都是電池供電的(手機、手表和遙控器),必須最大限度降低功耗。語(yǔ)音活動(dòng)檢測 (VAD) 是一個(gè)功耗極低的階段,專(zhuān)門(mén)用于檢測講話(huà)人。在觸發(fā)此檢測之前,所有其它設備都可以保持斷電狀態(tài)。如何將人類(lèi)語(yǔ)音與狗吠或其他非人類(lèi)噪音區別開(kāi)來(lái)?這需要通過(guò)一些巧妙但明確的濾波技術(shù)。

到達方向 (DOA) 檢測要求設備(手機、遙控器等)配有多個(gè)麥克風(fēng),通常為若干個(gè)麥克風(fēng)。然后,通過(guò)比較在每個(gè)麥克風(fēng)處聲音脈沖到達時(shí)間的微小差異,可以推斷到達方向(在應用人類(lèi)語(yǔ)音濾波后)。正如我將在下面所闡釋的,DOA 檢測對于使音頻前端能夠放大講話(huà)人(聲音)至關(guān)重要。

降噪

降噪有多種方法,有些是空間敏感的,有些是基于單通道濾波??臻g方法提供了一種通過(guò)波束成型技術(shù)放大講話(huà)人聲音的方法。這與無(wú)線(xiàn)技術(shù)在優(yōu)先選擇特定的蜂窩塔時(shí)所使用的技巧相同,但在此處,這種技巧應用于聲波,而不是無(wú)線(xiàn)電波。在此處,信號處理使用來(lái)自多個(gè)麥克風(fēng)的輸入信號優(yōu)先優(yōu)化來(lái)自特定方向的接收信號。這當然由 DOA 檢測進(jìn)行導向。

單通道濾波看起來(lái)更像頻域中的傳統濾波。最一般的情況下,這可能是一個(gè)帶通濾波器,但也可能是更復雜的選件。此方法的問(wèn)題是,它通常會(huì )影響觸發(fā)詞檢測和自動(dòng)語(yǔ)音識別。正是出于此原因,一些云平臺要求在使用語(yǔ)音識別服務(wù)之前禁用此類(lèi)濾波器。單通道濾波器在語(yǔ)音通信(而不是語(yǔ)音識別)中仍有價(jià)值,可減少線(xiàn)路另一端的聽(tīng)者噪音。

121.gif

回聲消除示例 - 在 AEC 激活前后 2 個(gè)信號的聲譜圖。

回聲消除

在任何封閉空間(房間、駕駛室)中,聲音會(huì )朝多個(gè)方向傳播,并且會(huì )從墻壁、窗戶(hù)和家具發(fā)出回聲,比直接信號略遲一點(diǎn)到達麥克風(fēng)?;蛘?,聽(tīng)眾可能會(huì )聽(tīng)到從講話(huà)人到麥克風(fēng)的難聽(tīng)回聲。消除這些討厭的回聲(起碼會(huì )增強噪音)是回聲消除 (AEC) 技術(shù)的任務(wù)?;芈曄夹g(shù)將參考信號(麥克風(fēng)從直接路徑接收到的第一個(gè)最強信號)與隨后接收到的回波進(jìn)行比較。它們波形相似,但是已衰減,因此容易識別并從信號中除去。

高精度語(yǔ)音識別只能通過(guò)高質(zhì)量音頻前端實(shí)現。這需要一些相當復雜的音頻前端處理,比如人聲活動(dòng)檢測、DOA 檢測、波束成型、回聲消除和濾波(如果適用)。這些技術(shù)全部基于復雜的信號處理算法。有多種技術(shù)組合可以為您提供,您可根據在高端技術(shù)和大眾市場(chǎng)之間的不同定位進(jìn)行選擇。

要實(shí)現可靠的基于語(yǔ)音的控制,乃至于在嘈雜環(huán)境中實(shí)現高音質(zhì)的溝通,必須滿(mǎn)足這一基本的要求。頗具矛盾的是,如果您可以將大量技術(shù)應用于清晰語(yǔ)音拾取問(wèn)題,該問(wèn)題便可迎刃而解。只要采用高端語(yǔ)音活動(dòng)檢測技術(shù)、多麥克風(fēng)波束成型技術(shù)和回聲消除技術(shù),您便可以擁有一款面向高端市場(chǎng)的高檔產(chǎn)品。一個(gè)更為有趣的挑戰是能夠以更具吸引力的價(jià)格為您的中端市場(chǎng)提供幾乎同樣出色的拾音質(zhì)量。我將在此處探討同時(shí)面向這兩類(lèi)市場(chǎng)的技術(shù)。

1631673549757175.png

(資料來(lái)源:CEVA)

語(yǔ)音活動(dòng)檢測 (VAD)

此步驟是語(yǔ)音拾取路徑的起點(diǎn) – 是否有人在聲音背景中講話(huà)?第一步只是查看一下信號,將具有清晰活動(dòng)的幀與背景分離開(kāi)來(lái)。

1631673610294869.png

圖1 針對示例信號的 VAD 功能

僅查看原始檢測信號,會(huì )發(fā)現一些檢測將是真實(shí)的,一些檢測將是錯誤的。為 SnR 設置一個(gè)合適的閾值有助于找到一個(gè)好的平衡點(diǎn)。在一款物有所值的產(chǎn)品中,純粹基于能量的檢測(窗口集成)可能就足夠了。高檔產(chǎn)品可能會(huì )增加使用神經(jīng)網(wǎng)絡(luò )的自適應檢測。這兩種特性在可穿戴設備和耳塞中都很常見(jiàn)。這些技術(shù)的常見(jiàn)分析是在接收器工作特性 (RoC) 曲線(xiàn)上繪制真陽(yáng)性和假陽(yáng)性的對比。假陽(yáng)性和真陽(yáng)性檢測之間的這種權衡有助于您決定如何調整產(chǎn)品。

1631673634987062.png

圖2 若干 VAD 解決方案的 RoC 圖表

到達方向檢測 (DOA)

此算法會(huì )比較不同麥克風(fēng)上檢測到的信號在到達時(shí)間上的輕微延遲。自然地,每個(gè)麥克風(fēng)對人類(lèi)語(yǔ)音特性的拾取應具有選擇性。然后,檢測的準確性取決于所用麥克風(fēng)的數量和這些麥克風(fēng)的分布情況。

智能揚聲器或智能電視等高端設備通常會(huì )假定講話(huà)人距離較遠,因此 DOA 將會(huì )相當準確。中端市場(chǎng)產(chǎn)品通常會(huì )離講話(huà)人更近,并且幾乎肯定會(huì )使用更少的麥克風(fēng),因此必須相應調整。這一因素對于波束成型技術(shù)尤其應予以考慮,而且對下一節中的降噪至關(guān)重要。

降噪

可以說(shuō),最好的降噪方式是空間降噪 - 使用波束成型技術(shù)放大講話(huà)人聲音。這再次需要多個(gè)麥克風(fēng),并使用 DOA 作為起點(diǎn)來(lái)選擇應放大的位置。您可以使用的麥克風(fēng)越多,放大講話(huà)人聲音的準確度就越高,從而有效抑制所有其他噪音源。但即使使用兩個(gè)麥克風(fēng),您也可以在一個(gè)麥克風(fēng)上提高甄別水平。

image.png

image.png

圖3 使用 3 個(gè)麥克風(fēng)和 7 個(gè)麥克風(fēng)的波束形成器濾波模式

對于單個(gè)麥克風(fēng),不能進(jìn)行波束成型。如果講話(huà)人自然靠近麥克風(fēng),這可能不成問(wèn)題。例如,耳塞通過(guò)骨傳導進(jìn)行語(yǔ)音拾取時(shí),可能已充分達到無(wú)噪音的程度。還請記住,對于語(yǔ)音識別,云提供商建議不要使用濾波器來(lái)消除噪音,因為這些濾波器可能同時(shí)會(huì )降低識別精度。

回聲消除

回聲(主要來(lái)自房間周?chē)墓潭ū砻妫?huì )產(chǎn)生與講話(huà)人信號有關(guān)的背景噪音波尾。在低端設備上,設備的揚聲器和塑料盒往往會(huì )增加噪音甚至產(chǎn)生非線(xiàn)性影響。這意味著(zhù) AEC 算法不僅必須可根據環(huán)境回波調整,還必須針對來(lái)自設備外殼的任何可能噪音進(jìn)行調整。

image.png

圖 4 AEC 使用的標準拾音路徑

1631673706606430.png

圖 5 3 個(gè)不同房間的回波波尾隨時(shí)間而變化的振幅比

跨界的 CEVA ClearVox

正如您看到的,當涉及到準確的語(yǔ)音拾取時(shí),一種規格并非處處適用。必須設計不同的解決方案以滿(mǎn)足不同的市場(chǎng)需求,即分別制定高端市場(chǎng)和大眾市場(chǎng)目標。CEVA 可以幫助您同時(shí)滿(mǎn)足這兩個(gè)目標,讓您從具有 NN 輔助算法和用于音頻縮放的許多麥克風(fēng)的高端技術(shù)中獲得最大價(jià)值,或者從具有基于能量的語(yǔ)音活動(dòng)檢測和僅有兩個(gè)甚至一個(gè)麥克風(fēng)的實(shí)惠技術(shù)中獲得最大價(jià)值。CEVA 在這一領(lǐng)域擁有多年的豐富經(jīng)驗。在用于耳塞、耳機和空間音頻的應用中,所有這些經(jīng)驗都整合在我們的 CEVA ClearVox 產(chǎn)品中,該產(chǎn)品支持 CEVA DSP 和 ARM 平臺。

(本文來(lái)源于《電子產(chǎn)品世界》雜志2021年9月期)



關(guān)鍵詞: 202109 語(yǔ)音 人工智能

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>