<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 設計應用 > ZLG深度解析語(yǔ)音識別技術(shù)

ZLG深度解析語(yǔ)音識別技術(shù)

作者:ZLG致遠電子 時(shí)間:2019-03-02 來(lái)源:電子產(chǎn)品世界 收藏

  已成為人與機器通過(guò)自然語(yǔ)言交互重要方式之一,本文將從的原理以及算法的角度出發(fā)為大家介紹語(yǔ)音識別的方案及詳細設計過(guò)程。

本文引用地址:http://dyxdggzs.com/article/201903/398163.htm

  語(yǔ)言作為人類(lèi)的一種基本交流方式,在數千年歷史中得到持續傳承。近年來(lái),語(yǔ)音識別技術(shù)的不斷成熟,已廣泛應用于我們的生活當中。語(yǔ)音識別技術(shù)是如何讓機器“聽(tīng)懂”人類(lèi)語(yǔ)言?本文將為大家從語(yǔ)音前端處理、基于統計學(xué)語(yǔ)音識別和基于深度學(xué)習語(yǔ)音識別等方面闡述語(yǔ)音識別的原理。

  隨著(zhù)計算機技術(shù)的飛速發(fā)展,人們對機器的依賴(lài)已經(jīng)達到一個(gè)極高的程度。語(yǔ)音識別技術(shù)使得人與機器通過(guò)自然語(yǔ)言交互成為可能。最常見(jiàn)的情形是通過(guò)語(yǔ)音控制房間燈光、空調溫度和電視的相關(guān)操作等。并且,移動(dòng)互聯(lián)網(wǎng)、智能家居、汽車(chē)、醫療和教育等領(lǐng)域的應用帶動(dòng)智能語(yǔ)音產(chǎn)業(yè)規模持續快速增長(cháng), 2018年全球智能語(yǔ)音市場(chǎng)規模將達到141.1億美元。

  


  目前,在全球智能語(yǔ)音市場(chǎng)占比情況中,各巨頭市場(chǎng)占有率由大到小依次為:Nuance、谷歌、蘋(píng)果、微軟和科大訊飛等。

  


  語(yǔ)音識別的本質(zhì)就是將語(yǔ)音序列轉換為文本序列,其常用的系統框架如下:

  


  接下來(lái)對語(yǔ)音識別相關(guān)技術(shù)進(jìn)行介紹,為了便于整體理解,首先,介紹語(yǔ)音前端信號處理的相關(guān)技術(shù),然后,解釋語(yǔ)音識別基本原理,并展開(kāi)到聲學(xué)模型和語(yǔ)言模型的敘述,最后,展示我司當前研發(fā)的離線(xiàn)語(yǔ)音識別demo。

  1.前端信號處理

  前端的信號處理是對原始語(yǔ)音信號進(jìn)行的相關(guān)處理,使得處理后的信號更能代表語(yǔ)音的本質(zhì)特征,相關(guān)技術(shù)點(diǎn)如下表所述:

  1)語(yǔ)音活動(dòng)檢測

  語(yǔ)音活動(dòng)檢測(Voice Activity Detection, VAD)用于檢測出語(yǔ)音信號的起始位置,分離出語(yǔ)音段和非語(yǔ)音(靜音或噪聲)段。VAD算法大致分為三類(lèi):基于閾值的VAD、基于分類(lèi)器的VAD和基于模型的VAD。

  基于閾值的VAD是通過(guò)提取時(shí)域(短時(shí)能量、短時(shí)過(guò)零率等)或頻域(MFCC、譜熵等)特征,通過(guò)合理的設置門(mén)限,達到區分語(yǔ)音和非語(yǔ)音的目的。

  基于分類(lèi)的VAD是將語(yǔ)音活動(dòng)檢測作為(語(yǔ)音和非語(yǔ)音)二分類(lèi),可以通過(guò)機器學(xué)習的方法訓練分類(lèi)器,達到語(yǔ)音活動(dòng)檢測的目的。

  基于模型的VAD是構建一套完整的語(yǔ)音識別模型用于區分語(yǔ)音段和非語(yǔ)音段,考慮到實(shí)時(shí)性的要求,并未得到實(shí)際的應用。

  2)降噪

  在生活環(huán)境中通常會(huì )存在例如空調、風(fēng)扇等各種噪聲,降噪算法目的在于降低環(huán)境中存在的噪聲,提高信噪比,進(jìn)一步提升識別效果。

  常用降噪算法包括自適應LMS和維納濾波等。

  3)回聲消除

  回聲存在于雙工模式時(shí),麥克風(fēng)收集到揚聲器的信號,比如在設備播放音樂(lè )時(shí),需要用語(yǔ)音控制該設備的場(chǎng)景。

  回聲消除通常使用自適應濾波器實(shí)現的,即設計一個(gè)參數可調的濾波器,通過(guò)自適應算法(LMS、NLMS等)調整濾波器參數,模擬回聲產(chǎn)生的信道環(huán)境,進(jìn)而估計回聲信號進(jìn)行消除。

  4)混響消除

  語(yǔ)音信號在室內經(jīng)過(guò)多次反射之后,被麥克風(fēng)采集,得到的混響信號容易產(chǎn)生掩蔽效應,會(huì )導致識別率急劇惡化,需要在前端處理。

  混響消除方法主要包括:基于逆濾波方法、基于波束形成方法和基于深度學(xué)習方法等。

  5)聲源定位

  麥克風(fēng)陣列已經(jīng)廣泛應用于語(yǔ)音識別領(lǐng)域,聲源定位是陣列信號處理的主要任務(wù)之一,使用麥克風(fēng)陣列確定說(shuō)話(huà)人位置,為識別階段的波束形成處理做準備。

  聲源定位常用算法包括:基于高分辨率譜估計算法(如MUSIC算法),基于聲達時(shí)間差(TDOA)算法,基于波束形成的最小方差無(wú)失真響應(MVDR)算法等。

  6)波束形成

  波束形成是指將一定幾何結構排列的麥克風(fēng)陣列的各個(gè)麥克風(fēng)輸出信號,經(jīng)過(guò)處理(如加權、時(shí)延、求和等)形成空間指向性的方法,可用于聲源定位和混響消除等。

  波束形成主要分為:固定波束形成、自適應波束形成和后置濾波波束形成等。

  2.語(yǔ)音識別的基本原理

  已知一段語(yǔ)音信號,處理成聲學(xué)特征向量之后表示為,其中表示一幀數據的特征向量,將可能的文本序列表示為,其中表示一個(gè)詞。語(yǔ)音識別的基本出發(fā)點(diǎn)就是求,即求出使最大化的w文本序列。將通過(guò)貝葉斯公式表示為:


  


  其中,稱(chēng)之為聲學(xué)模型,稱(chēng)之為語(yǔ)言模型。大多數的研究將聲學(xué)模型和語(yǔ)言模型分開(kāi)處理,并且,不同廠(chǎng)家的語(yǔ)音識別系統主要體現在聲學(xué)模型的差異性上面。此外,基于大數據和深度學(xué)習的端到端(End-to-End)方法也在不斷發(fā)展,它直接計算,即將聲學(xué)模型和語(yǔ)言模型作為整體處理。本文主要對前者進(jìn)行介紹。

  3.聲學(xué)模型

  聲學(xué)模型是將語(yǔ)音信號的觀(guān)測特征與句子的語(yǔ)音建模單元聯(lián)系起來(lái),即計算。我們通常使用隱馬爾科夫模型(Hidden Markov Model,HMM)解決語(yǔ)音與文本的不定長(cháng)關(guān)系,比如下圖的隱馬爾科夫模型中,

  


  將聲學(xué)模型表示為

  


  其中,初始狀態(tài)概率和狀態(tài)轉移概率(、)可用通過(guò)常規統計的方法計算得出,發(fā)射概率(

、、)可以通過(guò)混合高斯模型GMM或深度神經(jīng)網(wǎng)絡(luò )DNN求解。

  傳統的語(yǔ)音識別系統普遍采用基于GMM-HMM的聲學(xué)模型,示意圖如下:

  


  其中,表示狀態(tài)轉移概率,語(yǔ)音特征表示,通過(guò)混合高斯模型GMM建立特征與狀態(tài)之間的聯(lián)系,從而得到發(fā)射概率,并且,不同的狀態(tài)對應的混合高斯模型參數不同。

  基于GMM-HMM的語(yǔ)音識別只能學(xué)習到語(yǔ)音的淺層特征,不能獲取到數據特征間的高階相關(guān)性,DNN-HMM利用DNN較強的學(xué)習能力,能夠提升識別性能,其聲學(xué)模型示意圖如下:

  


  GMM-HMM和DNN-HMM的區別在于用DNN替換GMM來(lái)求解發(fā)射概率

,GMM- HMM模型優(yōu)勢在于計算量較小且效果不俗。DNN-HMM模型提升了識別率,但對于硬件的計算能力要求較高。因此,模型的選擇可以結合實(shí)際的應用調整。

  4.語(yǔ)言模型

  語(yǔ)言模型與文本處理相關(guān),比如我們使用的智能輸入法,當我們輸入“nihao”,輸入法候選詞會(huì )出現“你好”而不是“尼毫”,候選詞的排列參照語(yǔ)言模型得分的高低順序。

  語(yǔ)音識別中的語(yǔ)言模型也用于處理文字序列,它是結合聲學(xué)模型的輸出,給出概率最大的文字序列作為語(yǔ)音識別結果。由于語(yǔ)言模型是表示某一文字序列發(fā)生的概率,一般采用鏈式法則表示,如w是由組成,則可由條件概率相關(guān)公式表示為:

 

  由于條件太長(cháng),使得概率的估計變得困難,常見(jiàn)的做法是認為每個(gè)詞的概率分布只依賴(lài)于前幾個(gè)出現的詞語(yǔ),這樣的語(yǔ)言模型成為n-gram模型。在n-gram模型中,每個(gè)詞的概率分布只依賴(lài)于前面n-1個(gè)詞。例如在trigram(n取值為3)模型,可將上式化簡(jiǎn):

  5.語(yǔ)音識別效果展示

  基于PC的語(yǔ)音識別展示demo如下視頻所示:

  此處插入視頻zal_asr_demo_video.mp4

  視頻包括使用“小致同學(xué)”喚醒設備,設備喚醒之后有12秒時(shí)間進(jìn)行語(yǔ)音識別控制,空閑時(shí)間超過(guò)了12秒將再次休眠。

  我們的語(yǔ)音識別算法已經(jīng)部分移植到了基于A(yíng)Works的cortex-m7系列M1052-M16F12 8AWI -T平臺。語(yǔ)音識別的聲學(xué)模型和語(yǔ)言模型是我司訓練的用于測試智能家居控制的相關(guān)模型demo,在支持65個(gè)常用命令詞的離線(xiàn)識別測試中(數量越大識別所需時(shí)間越長(cháng)),使用讀取本地音頻文件的方式進(jìn)行語(yǔ)音識別“打開(kāi)空調”所需時(shí)間0.46s左右。下面是在M1052-M16F128AWI- T的實(shí)測效果:

  最后附上M1052-M16F128AWI-T產(chǎn)品圖片:

  6.關(guān)于算法庫獲取

  目前語(yǔ)音識別系統處于研發(fā)階段,廣大客戶(hù)可將自身需求反饋給廣州立功科技股份有限公司與立功科技·致遠電子相關(guān)市場(chǎng)人員,我們會(huì )以最快速度研發(fā)客戶(hù)需要的產(chǎn)品。



關(guān)鍵詞: ZLG 語(yǔ)音識別

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>