<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > 基于DSP的語(yǔ)音識別系統的實(shí)現及分析

基于DSP的語(yǔ)音識別系統的實(shí)現及分析

作者: 時(shí)間:2013-06-13 來(lái)源:網(wǎng)絡(luò ) 收藏

0 引言

  語(yǔ)音識別技術(shù)的目的是使機器能理解人類(lèi)語(yǔ)言,最終使人機通信成為現實(shí)。在過(guò)去幾十年,自動(dòng)語(yǔ)音識別(AutomaticSpeech Recognition,ASR)技術(shù)已經(jīng)取得了非常重大的進(jìn)步。

  ASR系統已經(jīng)能從處理像數字之類(lèi)的小詞匯量到廣播新聞之類(lèi)的大詞匯量。然而針對識別效果來(lái)說(shuō),ASR 系統則相對較差。尤其在會(huì )話(huà)任務(wù)上,自動(dòng)遠不及人類(lèi)。因此,語(yǔ)音識別技術(shù)的應用已成為一個(gè)極具競爭性和挑戰性的高新技術(shù)產(chǎn)業(yè)。

  隨著(zhù)技術(shù)的快速發(fā)展及性能不斷完善,基于的語(yǔ)音識別算法得到了實(shí)現,并且在費用、功耗、速度、精確度和體積等方面有著(zhù)PC機所不具備的優(yōu)勢,具有廣闊的應用前景。

  1 系統參數選擇

  一般情況下,按照不同的角度、不同的應用范圍、不同的性能要求有不同的分類(lèi)方法。針對識別對象不同有孤立詞識別、連接詞識別、連續語(yǔ)音識別與理解和會(huì )話(huà)語(yǔ)音識別等。針對識別系統的詞匯量有小詞匯量語(yǔ)音識別(1~20個(gè)詞匯)、中詞匯量識別(20~1 000個(gè)詞匯)和大詞匯量(1 000以上個(gè)詞匯)語(yǔ)音識別。針對發(fā)音人范圍來(lái)分,分為特定人語(yǔ)音識別、非特定人語(yǔ)音識別、自適應語(yǔ)音識別。

  本文主要研究非特定人小詞匯量連續語(yǔ)音實(shí)時(shí)識別系統。

  1.1

  語(yǔ)音識別本質(zhì)上是一種模式識別的過(guò)程,即未知語(yǔ)音的模式與已知語(yǔ)音的參考模式逐一進(jìn)行比較,最佳匹配的參考模式被作為識別結果。語(yǔ)音識別系統一般包括前端處理、特征參數提取、模型訓練和識別部分。圖1所示是基于模式匹配原理的語(yǔ)音識別系統框圖。

  

  圖1 語(yǔ)音識別系統基本框圖

  1.2 特征參數

  語(yǔ)音信號中含有非常豐富的信息,包括影響語(yǔ)音識別的重要信息,也包括對語(yǔ)音識別無(wú)關(guān)緊要甚至會(huì )降低識別率的冗余信息。特征提取則可以去除冗余信息,將能準確表征語(yǔ)音信號特征的聲學(xué)參數提取出來(lái)用于后端的模型建立和匹配,大大減少了存儲空間、訓練和測試時(shí)間。對特定人語(yǔ)音識別來(lái)說(shuō),希望提取的特征參數盡可能少的反映語(yǔ)義信息,盡可能多的反映說(shuō)話(huà)人的個(gè)人信息,而對非特定人語(yǔ)音識別來(lái)說(shuō),則相反。

  現在較常用的特征參數有線(xiàn)性預測參數(LPCC)、線(xiàn)譜對(LSP)參數、Mel頻率倒譜參數(MFCC)、感覺(jué)加權的線(xiàn)性預測(PLP)參數、動(dòng)態(tài)差分參數和高階信號譜類(lèi)特征等,尤其是LPCC和MFCC兩種參數最為常用。本文選擇MFCC作為特征參數。

  1.3 模型訓練及模式識別

  在識別系統后端,從已知模式中獲取用以表征該模式本質(zhì)特征的模型參數即形成模式庫,再將輸入的語(yǔ)音提取特征矢量參數后與已建立的聲學(xué)模型進(jìn)行相似度比較,同時(shí)根據一定的專(zhuān)家知識(如構詞規則,語(yǔ)法規則等)和判別規則決策出最終的識別結果。

  目前,語(yǔ)音識別所應用模型匹配技術(shù)主要有動(dòng)態(tài)時(shí)間規整(DTW)、隱馬爾可夫模型(HMM)、人工神經(jīng)元網(wǎng)絡(luò )(ANN)和支持向量機(SVM)等。DTW 是基本的語(yǔ)音相似性或相異性的一種測量工具,僅僅適合于孤立詞語(yǔ)音識別系統中。在解決非特定人、大詞匯量、連續語(yǔ)音識別問(wèn)題時(shí)較之HMM 算法相形見(jiàn)絀。HMM 模型是隨機過(guò)程的數學(xué)模型,它用統計方式建立語(yǔ)音信號的動(dòng)態(tài)模型,將聲學(xué)模型和語(yǔ)言模型融入語(yǔ)音識別搜索算法中,被認為是語(yǔ)音識別中最有效的模型。

  然而由Vapnik和co-workers提出來(lái)的SVM 基于結構風(fēng)險最小化準則和非線(xiàn)性和函數,具有更好的泛化能力和分類(lèi)精確度。目前,SVM 已經(jīng)成功應用于語(yǔ)音識別與話(huà)者識別。

  除此之外,Ganapathiraju等人已經(jīng)將支持向量機成功運用到復雜的大詞表非特定人連續語(yǔ)音識別上來(lái)。因此本文選擇SVM結合VQ完成語(yǔ)音模式識別。

  2 系統構建及實(shí)現

  為了更好地體現的實(shí)時(shí)性,選擇的合適參數相當重要??紤]到DSP的存儲容量和實(shí)時(shí)性要求,本文首先選用Matlab平臺對系統進(jìn)行仿真以比較選取合適的參數。

  2.1 Matlab平臺上的仿真實(shí)現

  2.1.1 實(shí)驗數據的建立

  基于Matlab平臺,本文實(shí)驗語(yǔ)音信號在安靜的實(shí)驗室環(huán)境下用普通的麥克風(fēng)通過(guò)Windows音頻設備和Cool edit軟件進(jìn)行錄制,語(yǔ)速一般,音量適中,文件存儲格式為wav文件。語(yǔ)音采樣頻率為8kHz,采樣量化精度為16bit,雙聲道。

  由于無(wú)調音節有412個(gè),有調音節為1 282個(gè),若采用SVM 對所有音節進(jìn)行分類(lèi),數據量很龐大,故本文選擇10個(gè)人對6個(gè)不固定的連續漢語(yǔ)數字進(jìn)行發(fā)音,每人發(fā)音15次,音節切分后共900個(gè)樣本,其中600個(gè)樣本作為訓練樣本集,其余300個(gè)樣本用于特定人的識別;另外選擇5個(gè)人對漢語(yǔ)數字0~9發(fā)音,每人發(fā)音3次,共150個(gè)測試樣本作為非特定人的識別。此外,以上選取的訓練或測試樣本均考慮到0~9共10個(gè)數字的均勻分布,并且樣本類(lèi)型通過(guò)手工標定。

  2.1.2 基于Matlab的語(yǔ)音識別系統的仿真及性能分析

  首先對語(yǔ)音信號進(jìn)行了預處理及時(shí)域分析:使用H(Z)=1-0.9375z-1 進(jìn)行預加重處理;同時(shí)考慮語(yǔ)音信號的短時(shí)平穩性,進(jìn)行分幀加窗---選用Hamming窗,幀長(cháng)32ms,幀移是10ms.本文所設計系統為小詞匯量的連續語(yǔ)音識別,考慮到訓練時(shí)的工作量和運算量,選用音節作為基本識別單元。語(yǔ)音特征參數矢量采用12維MFCC、12維一階MFCC以及每幀的短時(shí)歸一化能量共25維構成。

  本文構造了基于SVM 的連續語(yǔ)音識別系統。系統前端采用MFCC特征參數、并用遺傳算法(GA)與矢量量化(VQ)混合算法對其進(jìn)行聚類(lèi)得到優(yōu)化碼本,然后將所得碼本作為 SVM 模式訓練和識別算法的輸入,按照相應的準則最終得到識別的結果。語(yǔ)音識別系統流程圖如圖2所示。

  語(yǔ)音識別系統流程圖

  圖2 語(yǔ)音識別系統流程圖

  首先對不同初始種群數的語(yǔ)音識別系統性能進(jìn)行了分析。表1給出了不同初始種群下的識別系統性能,從表中可以得出,在迭代次數為100、初始種群數為100時(shí),種群最終平均適應度和正識率最高,之后隨著(zhù)初始種群數繼續增加,平均適應度和正識率都在降低。綜合考慮迭代所需時(shí)間和正識率,本文折衷采用初始種群數為80進(jìn)行系統的仿真和實(shí)現。

  不同初始種群下的識別系統性能

  表1 不同初始種群下的識別系統性能

  種群數平均適應度迭代所需時(shí)間/ (s) 正識率系統設計中考慮到MFCC參數數據量太大,對模型訓練和識別的時(shí)間有很大的影響,因此選擇矢量量化對數據進(jìn)行分類(lèi)。矢量量化的關(guān)鍵問(wèn)題是如何獲取VQ碼本及碼本長(cháng)度的確定,對此進(jìn)行了仿真比較。

  表2給出了不同VQ算法對正識率的影響比較。由表可以采用種群數為80,碼本長(cháng)度為16,核函數為 RBF,選用的改進(jìn)遺傳算法(GA)時(shí)系統的正識率要明顯高于LBG和傳統GA.LBG容易陷入局部最優(yōu),傳統GA 具有全局搜索能力,但收斂速度慢。實(shí)驗證明,改進(jìn)的GA較好地解決了這兩者的問(wèn)題,收斂速度較快,正識率也有較為明顯的提高。

  不同VQ算法對正識率的影響比較

  表2 不同VQ算法對正識率的影響比較

  在此基礎上比較了傳統GA和優(yōu)化后GA對不同碼本長(cháng)度失真測度的影響,如圖3所示。由圖可知,在碼本平均失真測度上,改進(jìn)的GA比傳統GA在整體上明顯有所降低,即種群平均適應度更高。從圖3還可以發(fā)現碼本長(cháng)度為32時(shí)失真測度達到最低,但相比碼本長(cháng)度為16時(shí)的值減少的并不太明顯。 考慮到迭代時(shí)間問(wèn)題,本文所采用的碼本長(cháng)度為16.

  不同SVM 核函數對語(yǔ)音識別系統性能也會(huì )有影響。SVM分類(lèi)器的目的是設計一個(gè)具有良好性能的分類(lèi)超平面,以滿(mǎn)足在高維特征空間中能通過(guò)這個(gè)分類(lèi)超平面區分多類(lèi)數據樣本。

  已有文獻證明一對一分類(lèi)器在邊界距離上比一對多分類(lèi)器更精確,故本文采用一對一方法對多類(lèi)數據樣本進(jìn)行訓練和識別。

  碼本長(cháng)度的失真測度對比

  圖3 碼本長(cháng)度的失真測度對比

  表3給出了針對非特定人的不同SVM 核函數的識別系統性能。表中顯示,在取C =3,γ= 125(這里的25為特征參數維數)情況下,盡管核函數為RBF時(shí)所需的支持向量數要略高于核函數為Sigmoid時(shí),但系統的正確識別率要明顯高于采用其他核函數的系統,因此本文選取RBF作為核函數。

  

  表3 不同SVM 核函數的識別系統性能

  通過(guò)Matlab仿真分析了不同的矢量量化算法、SVM 核函數和初始種群數對語(yǔ)音識別系統性能產(chǎn)生的影響,為語(yǔ)音識別系統在DSP上的實(shí)現提供了參數和模型的選擇。

2.2 語(yǔ)音識別系統在DSP上的實(shí)現

  2.2.1 實(shí)驗數據的建立

  所有語(yǔ)音信號在安靜的實(shí)驗室環(huán)境下獲得?;贒SP 平臺的實(shí)時(shí)識別實(shí)驗系統,語(yǔ)音信號通過(guò)麥克風(fēng)輸入,使用TLV320AIC23對模擬語(yǔ)音信號進(jìn)行采樣。語(yǔ)音采樣頻率為8kHz,采樣量化精度為 16bit,雙聲道??紤]到Flash存儲空間有限,本文選用自建語(yǔ)音庫中900個(gè)樣本中的40個(gè)樣本作為訓練樣本建立模型參數。

  2.2.2 語(yǔ)音識別系統的硬件結構

  由于語(yǔ)音識別系統算法復雜度較高,同時(shí)考慮到實(shí)時(shí)性,本文選擇TI公司的TMS320C6713DSK 作為硬件開(kāi)發(fā)平臺。

  TMS320C6713DSK是一款低成本獨立開(kāi)發(fā)應用板,其最高工作時(shí)鐘頻率可以達到225MHz,且是高性能的浮點(diǎn)數字信號處理器。且帶有TLV320AIC23 立體編解碼器,8M 字節32bit的SDRAM,512k字節,8bit的非易失性Flash存儲器。

  本系統針對的是非特定人小詞匯量連續語(yǔ)音的識別,硬件結構如圖4所示,主要包括語(yǔ)音數據采集模塊、數據傳輸模塊、數據處理模塊、程序數據存儲及Flash引導裝載模塊、數據存儲器RAM 模塊及其他相關(guān)模塊。

  系統硬件結構圖

  圖4 系統硬件結構圖

  數據采集模塊主要采用TLV320AIC23編解碼器來(lái)實(shí)現對語(yǔ)音數據的采集。由AIC23采集的數字信號數據通過(guò)McBSP1存入SDRAM 中,數據傳輸方式為EDMA方式下的McBSP數據傳輸。數據處理模塊是系統的核心模塊,用TMS320C6713DSP芯片來(lái)完成語(yǔ)音識別算法的實(shí)現。訓練時(shí),DSP完成語(yǔ)音信號MFCC特征參數的提取、SVM 建模并存入Flash中;識別時(shí),DSP讀取待識別語(yǔ)音信號數據并將獲得的模型參數與訓練模型參數進(jìn)行比較,進(jìn)而得到識別結果。

  2.2.2 基于DSP的語(yǔ)音識別系統的實(shí)現及分析

  本系統設計主要涉及到語(yǔ)音數據段、執行代碼段、載入Flash的程序段和模型參數段等。在編程中主要以C語(yǔ)言編程為主,配合使用匯編語(yǔ)言,使程序運行效率更高。

  實(shí)驗結果及其性能分析:

  訓練時(shí),系統上電,加入工程項目。圖5所示為讀取“12345”的語(yǔ)音時(shí)部分主程序、對音節切分后數字“1”提取的語(yǔ)音及其第10幀的MFCC參數、mfcc子程序等。

  MFCC參數

  圖5 MFCC參數

  識別過(guò)程中,將存入Flash中的訓練模型參數依次讀出,與待識別語(yǔ)音信號的MFCC參數比較,最后得到識別結果。

  實(shí)驗中讀取20句話(huà),每句話(huà)含有6個(gè)不同漢語(yǔ)數字的連續語(yǔ)音,通過(guò)對其進(jìn)行測試,得到識別率為76.7%.圖6是對音節切分后的數字“2”的識別情況,在STD欄輸出了最后識別結果即數字“2”。

  3 結論

  本文通過(guò)在Matlab平臺上進(jìn)行仿真實(shí)驗選取合適的參數及模型,并將其移植到 TMS320C6713DSK上實(shí)現了非特定人小詞匯量連續語(yǔ)音識別系統。其中基于TLV320AIC23完成了對語(yǔ)音數據的采集,借助SDRAM 和Flash進(jìn)行數據存儲,并采用短時(shí)能量和短時(shí)過(guò)零率進(jìn)行語(yǔ)音信號的初步判定,結合起來(lái)進(jìn)行測試,在Windows7操作系統中使用DirectX SDK 9.0b進(jìn)行視頻顯示,QR解碼程序為自行編制,并與TPS自動(dòng)測試臺集成。連續地采集視頻,在計算機顯示屏上實(shí)時(shí)顯示影像圖的同時(shí)進(jìn)行條碼解碼定位,結果顯示單幀圖像的平均解碼時(shí)間為630ms,使用幀相關(guān)算法后,平均解碼時(shí)間為124ms.

  圖6為在單碼定位時(shí)預估未定位條碼的結果,q1為已定位碼,q2,q3,q4為未定位碼,由q1預估q2,q3,q4的結果為圖中的加亮框表示,對框區域外擴使其包含完整條碼,然后把擴域后的子區域獨立出來(lái),作為下一幀條碼解碼的有效區域以提高圖像處理速度。

  

  圖5 視頻輔助探針定位

  單碼定位的預估結果

  圖6 單碼定位的預估結果

  本方法在采用幀相關(guān)及位置相關(guān)算法后,在普通PC上實(shí)現實(shí)時(shí)視頻,并具有如下特點(diǎn):

  a)無(wú)需夾具,允許遮擋,允許測試板和探頭位置變化;探針和目標點(diǎn)標記同時(shí)出現影像圖上,直接引導,無(wú)需在影像和實(shí)板上對照查找,提高探測效率,減小出錯機會(huì )。

  b)QR碼定位符含測試板信息,可以在PCB板制作過(guò)程中通過(guò)絲印到PCB板上,也可以在后期紙制粘貼到PCB板上(但要精確地保證每塊板上的QR碼位置相同),允許同一板面任意多定位碼,以區分不同PCB板及不同板面,用作PCB加電前預檢測,可保證加電安全。

矢量控制相關(guān)文章:矢量控制原理


關(guān)鍵詞: DSP 語(yǔ)音識別系統

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>