<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 設計應用 > ZLG深度解析語(yǔ)音識別技術(shù)

ZLG深度解析語(yǔ)音識別技術(shù)

作者：ZLG致遠電子時(shí)間：2019-03-02 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

　　語(yǔ)音識別已成為人與機器通過(guò)自然語(yǔ)言交互重要方式之一，本文將從語(yǔ)音識別的原理以及語(yǔ)音識別算法的角度出發(fā)為大家介紹語(yǔ)音識別的方案及詳細設計過(guò)程。

本文引用地址：http://dyxdggzs.com/article/201903/398163.htm

　　語(yǔ)言作為人類(lèi)的一種基本交流方式，在數千年歷史中得到持續傳承。近年來(lái)，語(yǔ)音識別技術(shù)的不斷成熟，已廣泛應用于我們的生活當中。語(yǔ)音識別技術(shù)是如何讓機器“聽(tīng)懂”人類(lèi)語(yǔ)言?本文將為大家從語(yǔ)音前端處理、基于統計學(xué)語(yǔ)音識別和基于深度學(xué)習語(yǔ)音識別等方面闡述語(yǔ)音識別的原理。

　　隨著(zhù)計算機技術(shù)的飛速發(fā)展，人們對機器的依賴(lài)已經(jīng)達到一個(gè)極高的程度。語(yǔ)音識別技術(shù)使得人與機器通過(guò)自然語(yǔ)言交互成為可能。最常見(jiàn)的情形是通過(guò)語(yǔ)音控制房間燈光、空調溫度和電視的相關(guān)操作等。并且，移動(dòng)互聯(lián)網(wǎng)、智能家居、汽車(chē)、醫療和教育等領(lǐng)域的應用帶動(dòng)智能語(yǔ)音產(chǎn)業(yè)規模持續快速增長(cháng)， 2018年全球智能語(yǔ)音市場(chǎng)規模將達到141.1億美元。

　　

　　目前，在全球智能語(yǔ)音市場(chǎng)占比情況中，各巨頭市場(chǎng)占有率由大到小依次為：Nuance、谷歌、蘋(píng)果、微軟和科大訊飛等。

　　

　　語(yǔ)音識別的本質(zhì)就是將語(yǔ)音序列轉換為文本序列，其常用的系統框架如下：

　　

　　接下來(lái)對語(yǔ)音識別相關(guān)技術(shù)進(jìn)行介紹，為了便于整體理解，首先，介紹語(yǔ)音前端信號處理的相關(guān)技術(shù)，然后，解釋語(yǔ)音識別基本原理，并展開(kāi)到聲學(xué)模型和語(yǔ)言模型的敘述，最后，展示我司當前研發(fā)的離線(xiàn)語(yǔ)音識別demo。

　　1.前端信號處理

　　前端的信號處理是對原始語(yǔ)音信號進(jìn)行的相關(guān)處理，使得處理后的信號更能代表語(yǔ)音的本質(zhì)特征，相關(guān)技術(shù)點(diǎn)如下表所述：

　　1)語(yǔ)音活動(dòng)檢測

　　語(yǔ)音活動(dòng)檢測(Voice Activity Detection, VAD)用于檢測出語(yǔ)音信號的起始位置，分離出語(yǔ)音段和非語(yǔ)音(靜音或噪聲)段。VAD算法大致分為三類(lèi)：基于閾值的VAD、基于分類(lèi)器的VAD和基于模型的VAD。

　　基于閾值的VAD是通過(guò)提取時(shí)域(短時(shí)能量、短時(shí)過(guò)零率等)或頻域(MFCC、譜熵等)特征，通過(guò)合理的設置門(mén)限，達到區分語(yǔ)音和非語(yǔ)音的目的。

　　基于分類(lèi)的VAD是將語(yǔ)音活動(dòng)檢測作為(語(yǔ)音和非語(yǔ)音)二分類(lèi)，可以通過(guò)機器學(xué)習的方法訓練分類(lèi)器，達到語(yǔ)音活動(dòng)檢測的目的。

　　基于模型的VAD是構建一套完整的語(yǔ)音識別模型用于區分語(yǔ)音段和非語(yǔ)音段，考慮到實(shí)時(shí)性的要求，并未得到實(shí)際的應用。

　　2)降噪

　　在生活環(huán)境中通常會(huì )存在例如空調、風(fēng)扇等各種噪聲，降噪算法目的在于降低環(huán)境中存在的噪聲，提高信噪比，進(jìn)一步提升識別效果。

　　常用降噪算法包括自適應LMS和維納濾波等。

　　3)回聲消除

　　回聲存在于雙工模式時(shí)，麥克風(fēng)收集到揚聲器的信號，比如在設備播放音樂(lè )時(shí)，需要用語(yǔ)音控制該設備的場(chǎng)景。

　　回聲消除通常使用自適應濾波器實(shí)現的，即設計一個(gè)參數可調的濾波器，通過(guò)自適應算法(LMS、NLMS等)調整濾波器參數，模擬回聲產(chǎn)生的信道環(huán)境，進(jìn)而估計回聲信號進(jìn)行消除。

　　4)混響消除

　　語(yǔ)音信號在室內經(jīng)過(guò)多次反射之后，被麥克風(fēng)采集，得到的混響信號容易產(chǎn)生掩蔽效應，會(huì )導致識別率急劇惡化，需要在前端處理。

　　混響消除方法主要包括：基于逆濾波方法、基于波束形成方法和基于深度學(xué)習方法等。

　　5)聲源定位

　　麥克風(fēng)陣列已經(jīng)廣泛應用于語(yǔ)音識別領(lǐng)域，聲源定位是陣列信號處理的主要任務(wù)之一，使用麥克風(fēng)陣列確定說(shuō)話(huà)人位置，為識別階段的波束形成處理做準備。

　　聲源定位常用算法包括：基于高分辨率譜估計算法(如MUSIC算法)，基于聲達時(shí)間差(TDOA)算法，基于波束形成的最小方差無(wú)失真響應(MVDR)算法等。

　　6)波束形成

　　波束形成是指將一定幾何結構排列的麥克風(fēng)陣列的各個(gè)麥克風(fēng)輸出信號，經(jīng)過(guò)處理(如加權、時(shí)延、求和等)形成空間指向性的方法，可用于聲源定位和混響消除等。

　　波束形成主要分為：固定波束形成、自適應波束形成和后置濾波波束形成等。

　　2.語(yǔ)音識別的基本原理

　　已知一段語(yǔ)音信號，處理成聲學(xué)特征向量之后表示為，其中表示一幀數據的特征向量，將可能的文本序列表示為，其中表示一個(gè)詞。語(yǔ)音識別的基本出發(fā)點(diǎn)就是求，即求出使最大化的w文本序列。將通過(guò)貝葉斯公式表示為：

　　

　　其中，稱(chēng)之為聲學(xué)模型，稱(chēng)之為語(yǔ)言模型。大多數的研究將聲學(xué)模型和語(yǔ)言模型分開(kāi)處理，并且，不同廠(chǎng)家的語(yǔ)音識別系統主要體現在聲學(xué)模型的差異性上面。此外，基于大數據和深度學(xué)習的端到端(End-to-End)方法也在不斷發(fā)展，它直接計算，即將聲學(xué)模型和語(yǔ)言模型作為整體處理。本文主要對前者進(jìn)行介紹。

　　3.聲學(xué)模型

　　聲學(xué)模型是將語(yǔ)音信號的觀(guān)測特征與句子的語(yǔ)音建模單元聯(lián)系起來(lái)，即計算。我們通常使用隱馬爾科夫模型(Hidden Markov Model，HMM)解決語(yǔ)音與文本的不定長(cháng)關(guān)系，比如下圖的隱馬爾科夫模型中，

　　

　　將聲學(xué)模型表示為

　　

　　其中，初始狀態(tài)概率和狀態(tài)轉移概率(、)可用通過(guò)常規統計的方法計算得出，發(fā)射概率(

、、)可以通過(guò)混合高斯模型GMM或深度神經(jīng)網(wǎng)絡(luò )DNN求解。

　　傳統的語(yǔ)音識別系統普遍采用基于GMM-HMM的聲學(xué)模型，示意圖如下：

　　

　　其中，表示狀態(tài)轉移概率，語(yǔ)音特征表示，通過(guò)混合高斯模型GMM建立特征與狀態(tài)之間的聯(lián)系，從而得到發(fā)射概率，并且，不同的狀態(tài)對應的混合高斯模型參數不同。

　　基于GMM-HMM的語(yǔ)音識別只能學(xué)習到語(yǔ)音的淺層特征，不能獲取到數據特征間的高階相關(guān)性，DNN-HMM利用DNN較強的學(xué)習能力，能夠提升識別性能，其聲學(xué)模型示意圖如下：

　　

　　GMM-HMM和DNN-HMM的區別在于用DNN替換GMM來(lái)求解發(fā)射概率

，GMM- HMM模型優(yōu)勢在于計算量較小且效果不俗。DNN-HMM模型提升了識別率，但對于硬件的計算能力要求較高。因此，模型的選擇可以結合實(shí)際的應用調整。

　　4.語(yǔ)言模型

　　語(yǔ)言模型與文本處理相關(guān)，比如我們使用的智能輸入法，當我們輸入“nihao”，輸入法候選詞會(huì )出現“你好”而不是“尼毫”，候選詞的排列參照語(yǔ)言模型得分的高低順序。

　　語(yǔ)音識別中的語(yǔ)言模型也用于處理文字序列，它是結合聲學(xué)模型的輸出，給出概率最大的文字序列作為語(yǔ)音識別結果。由于語(yǔ)言模型是表示某一文字序列發(fā)生的概率，一般采用鏈式法則表示，如w是由組成，則可由條件概率相關(guān)公式表示為：

　

　　由于條件太長(cháng)，使得概率的估計變得困難，常見(jiàn)的做法是認為每個(gè)詞的概率分布只依賴(lài)于前幾個(gè)出現的詞語(yǔ)，這樣的語(yǔ)言模型成為n-gram模型。在n-gram模型中，每個(gè)詞的概率分布只依賴(lài)于前面n-1個(gè)詞。例如在trigram(n取值為3)模型，可將上式化簡(jiǎn)：

　　5.語(yǔ)音識別效果展示

　　基于PC的語(yǔ)音識別展示demo如下視頻所示：

　　此處插入視頻zal_asr_demo_video.mp4

　　視頻包括使用“小致同學(xué)”喚醒設備，設備喚醒之后有12秒時(shí)間進(jìn)行語(yǔ)音識別控制，空閑時(shí)間超過(guò)了12秒將再次休眠。

　　我們的語(yǔ)音識別算法已經(jīng)部分移植到了基于A(yíng)Works的cortex-m7系列M1052-M16F12 8AWI -T平臺。語(yǔ)音識別的聲學(xué)模型和語(yǔ)言模型是我司訓練的用于測試智能家居控制的相關(guān)模型demo，在支持65個(gè)常用命令詞的離線(xiàn)識別測試中(數量越大識別所需時(shí)間越長(cháng))，使用讀取本地音頻文件的方式進(jìn)行語(yǔ)音識別“打開(kāi)空調”所需時(shí)間0.46s左右。下面是在M1052-M16F128AWI- T的實(shí)測效果：

　　最后附上M1052-M16F128AWI-T產(chǎn)品圖片：

　　6.關(guān)于算法庫獲取

　　目前語(yǔ)音識別系統處于研發(fā)階段，廣大客戶(hù)可將自身需求反饋給廣州立功科技股份有限公司與立功科技·致遠電子相關(guān)市場(chǎng)人員，我們會(huì )以最快速度研發(fā)客戶(hù)需要的產(chǎn)品。

關(guān)鍵詞： ZLG 語(yǔ)音識別

評論

相關(guān)推薦

精密測溫模塊ZAM6222在化學(xué)發(fā)光分析儀中的應用

測試測量 ZLG | 2023-09-04

《嵌入式系統軟件開(kāi)發(fā)實(shí)例》內容簡(jiǎn)介

資源下載周立功單片機 ZLG/FS TCP/IP USB | 2007-03-30

ZLG,ARM 請教ZLG-ARM

jackwang | 2006-09-17

屏閃鬧的是哪一出？

電源與新能源 ZLG 屏閃 | 2023-09-14

振動(dòng)場(chǎng)合的電源模塊該如何選型？

電源與新能源 ZLG 電源模塊 | 2023-11-06

zlg,boot 下載zlg-boot的問(wèn)題

jackwang | 2006-09-17

ZLG-CF驅動(dòng)中間件簡(jiǎn)要說(shuō)明

資源下載 ZLG-CF 驅動(dòng) 中間件 | 2007-02-16

儀器校準這件事

測試測量 ZLG 儀器校準 | 2023-10-07

BLE藍牙模塊功能應用① — 主從一體

手機與無(wú)線(xiàn)通信 ZLG BLE 藍牙模塊 | 2023-09-12

ZLG,ARM,uart 請ZLG-ARM給多uart通訊提個(gè)解決的方案

jackwang | 2006-09-17

Nuance語(yǔ)音識別技術(shù)

設計方案語(yǔ)音識別 Nuance 消費電子 | 2015-02-03

美光高性能內存與存儲，推動(dòng) AI 豐富殘障人士生活體驗

網(wǎng)絡(luò )與存儲語(yǔ)音識別生成式AI 機器學(xué)習內存 | 2023-12-07

ZLG7290應用電路及功能方框圖

設計方案電子電路圖，ZLG | 2012-07-31

iCAN教學(xué)實(shí)驗開(kāi)發(fā)平臺簡(jiǎn)介

視頻 ZLG iCAN | 2009-04-17

ZLG-GUI 圖形用戶(hù)界面

資源下載嵌入式 ZLG/GUI 界面 | 2007-02-16

電源模塊輸出為何振蕩？

電源與新能源 ZLG 電源模塊 | 2023-09-14

電視機智能聲控選合系統設計與實(shí)現

資源下載語(yǔ)音識別彩電遙控智能聲控選臺 | 2007-02-16

ZLG-FS文件系統簡(jiǎn)要說(shuō)明

資源下載周立功 ZLG/FS 文件系統中間件 | 2007-02-16

利用MEMS麥克風(fēng)陣列定位并識別音頻或語(yǔ)音信源的技術(shù)方案

設計方案 ARM處理器 MEMS STM32F4 語(yǔ)音識別 | 2015-03-23

基于STM32智能家居系統的設計與實(shí)現

設計方案 STM32 語(yǔ)音識別服務(wù)器智能家居 | 2015-03-21

4 調用 Google 語(yǔ)音識別

視頻 Android Wear 圖靈機器人 Google 語(yǔ)音識別 | 2015-07-07

小電阻在ePort模塊中的大作用

電源與新能源 ZLG ePort | 2023-09-04

LM3S101,ZLG,MCU,2200 LM3S101商業(yè)應用有獎活動(dòng)在“ZLG-MCU”等您拿，價(jià)值2200元！

jackwang | 2006-09-17

孤立詞語(yǔ)音識別系統的DSP實(shí)現

設計方案孤立詞 DSP 語(yǔ)音識別 | 2015-03-28

ZLG,ARM 請問(wèn)一下ZLG-ARM,

jackwang | 2006-09-17

確保儲能系統輸出平穩與可靠的DC/DC模塊

電源與新能源 ZLG 儲能系統 | 2023-11-14

三線(xiàn)制PT100測溫容易忽略的設計細節

測試測量 ZLG PT100 | 2023-11-14

JavaScript語(yǔ)音識別庫-Julius

視頻 JavaScript 語(yǔ)音識別 Julius | 2015-07-07

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>