<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > 基于TMS320VC5402的孤立詞語(yǔ)音識別系統設計

基于TMS320VC5402的孤立詞語(yǔ)音識別系統設計

作者: 時(shí)間:2009-11-06 來(lái)源:網(wǎng)絡(luò ) 收藏

0 引 言

在孤立詞中,最為簡(jiǎn)單有效的方法是采用(Dynamic Time Warping,DTW)算法,該算法解決了發(fā)音長(cháng)短不一的模板匹配問(wèn)題,是中出現最早、較為經(jīng)典的一種算法。用于孤立詞識別,該算法較現在比較流行的HMM算法在相同的環(huán)境條件下,識別效果相差不大,但HMM算法要復雜的多,這主要體現在HMM算法在訓練階段需要提供大量的語(yǔ)音數據,通過(guò)反復計算才能得到模型參數,而DTW算法的訓練中幾乎不需要額外的計算。所以在孤立詞中,DTW算法仍得到廣泛的應用。本系統就采用了該算法。

1 系統概述

語(yǔ)音識別系統的典型實(shí)現方案如圖1所示。輸入的模擬語(yǔ)音信號首先要進(jìn)行預處理,包括預濾波、采樣和量化、加窗、斷點(diǎn)檢測、預加重等。語(yǔ)音信號經(jīng)過(guò)預處理后,接下來(lái)重要的一環(huán)就是特征參數提取,其目的是從語(yǔ)音波形中提取出隨時(shí)間變化的語(yǔ)音特征序列。然后建立聲學(xué)模型,在識別的時(shí)候將輸入的語(yǔ)音特征同聲學(xué)模型進(jìn)行比較,得到最佳的識別結果。

2 硬件構成

2.1 系統構成

這里采用芯片為核心(圖2),系統包括直接雙訪(fǎng)問(wèn)快速SRAM、一路ADC/一路DAC及相應的模擬信號放大器和抗混疊濾波器。外部只需擴展FLASH存儲器、電源模塊等少量電路即可構成完整系統應用。

2.2 系統主要功能模塊構成

語(yǔ)音處理模塊采用TI TMS320VC5402,其主要特點(diǎn)包括:采用改進(jìn)的哈佛結構,一條程序總線(xiàn)(PB),三條數據總線(xiàn)(CB,DB,EB)和四條地址總線(xiàn)(PAB,CAB,DAB,EAB),帶有專(zhuān)用硬件邏輯CPU(40位算術(shù)邏輯單元(ALU),包括1個(gè)40位桶形移位器和二個(gè)40位累加器;一個(gè)17×17乘法器和一個(gè)40位專(zhuān)用加法器,允許16位帶或不帶符號的乘法),片內存儲器(八個(gè)輔助寄存器及一個(gè)軟件棧),片內外專(zhuān)用的指令集,允許使用業(yè)界最先進(jìn)的定點(diǎn) C語(yǔ)言編譯器。TMS320VC5402含4 KB的片內ROM和16 KB的雙存取RAM,一個(gè)HPI(HostPortInterface)接口,二個(gè)多通道緩沖單口MCBSP(Multi-Channel Buffered SerialPort),單周期指令執行時(shí)間10 ns,帶有符合IEEE1149.1標準的JTAG邊界掃描仿真邏輯。語(yǔ)音輸入、輸出的模擬前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一體的模擬接口電路,并且與接口簡(jiǎn)單,性能高、功耗低,已成為當前語(yǔ)音處理的主流產(chǎn)品。16位數據結構,音頻采樣頻率為2~22.05 kHz,內含抗混疊濾波器和重構濾波器的模擬接口芯片,還有一個(gè)能與許多DSP芯片相連的同步串行通信接口。TLC320AD50C片內還包括一個(gè)定時(shí)器(調整采樣率和幀同步延時(shí))和控制器(調整編程放大增益、鎖相環(huán)PLL、主從模式)。TLC320AD50C與TMS320VC5402的硬件連接,如圖3所示。

3 語(yǔ)音識別算法實(shí)現

3.1 語(yǔ)音信號的

語(yǔ)音的是語(yǔ)音識別中最基本的模塊,在嵌入式語(yǔ)音識別系統中更是占有非常重要的地位:一方面的結果不準確,系統的識別性能就得不到保證;另一方面如果端點(diǎn)檢測的結果過(guò)于放松,雖然語(yǔ)音部分被很好地包含在處理的信號中,但是增加過(guò)多的靜音則會(huì )增加系統的運算量,同時(shí)對識別性能也有負面影響。因此為能量和過(guò)零率兩個(gè)參數分別設定兩個(gè)門(mén)限,一個(gè)是比較低的門(mén)限,數值比較小,對信號的變化比較敏感,很容易就被超過(guò)。另一個(gè)是比較高的門(mén)限,數值比較大,信號必須達到一定的強度,該門(mén)限才可能被超過(guò)。低門(mén)限被超過(guò)未必就是語(yǔ)音的開(kāi)始,有可能是時(shí)間很短的噪聲引起的。高門(mén)限被超過(guò),則基本確信是由于語(yǔ)音信號引起的。

整個(gè)語(yǔ)音信號的端點(diǎn)檢測可以分為四段:靜音、過(guò)渡段、語(yǔ)音段、結束。程序中使用一個(gè)變量status來(lái)表示當前所處的狀態(tài)。在靜音段,如果能量或過(guò)零率超越了低門(mén)限,就應該開(kāi)始標記起始點(diǎn),進(jìn)入過(guò)渡段。在過(guò)渡段中,由于參數的數值比較小,不能確信是否處于真正的語(yǔ)音段,因此只要兩個(gè)參數的數值都回落到低門(mén)限以下,就將當前狀態(tài)恢復到靜音狀態(tài)。而如果在過(guò)渡段中兩個(gè)參數中任意一個(gè)超過(guò)了高門(mén)限,就可以確信進(jìn)入語(yǔ)音段了。一些突發(fā)性的噪聲可以引發(fā)短時(shí)能量或過(guò)零率的數值很高,但是往往不能維持足夠長(cháng)的時(shí)間,這些可以通過(guò)設定最短時(shí)間門(mén)限來(lái)判別。當前狀態(tài)處于語(yǔ)音段時(shí),如果兩個(gè)參數的數值降低到低門(mén)限以下,而且總的計時(shí)長(cháng)度小于最短時(shí)間門(mén)限,則認為這是一段噪音,繼續掃描以后的語(yǔ)音數據。否則就標記好結束端點(diǎn),并返回。

3.2 語(yǔ)音特征參數的提取

近年來(lái),一種能夠比較充分利用人耳這種特殊的感知特新的參數得到了廣泛的應用,這就是(Mel-scaled Cepstrum Coefficients,MFCC)。它和線(xiàn)性頻率的轉換關(guān)系是:

fMel=2 596log10(1+f/700)

MFCC參數是按幀計算的。首先要通過(guò)FFT得到該幀信號的功率譜,轉換為Mel頻率下的功率譜。這需要在計算之前先在語(yǔ)音的頻譜范圍內設置若干個(gè)帶通濾波器Hm(n)。MFCC參數的計算流程為:

(1)確定每一幀語(yǔ)音采樣序列的點(diǎn)數,本系統采取N=256點(diǎn)。對每幀序列s(n)進(jìn)行預加重處理后再經(jīng)過(guò)離散FFT變換,取模的平方得到離散功率譜s(n)。

(2)計算s(n)通過(guò)M個(gè)Hm(n)后所得的功率值,即計算s(n)和Hm(n)在各個(gè)離散頻率點(diǎn)上乘積之和,得到M個(gè)參數Pm,m=0,1,…,M-1。

(3)計算Pm的自然對數,得到Lm,m=0,1,…,M-1。

(4)對L0,L1,…,LM-1計算其離散余弦變換,得到Dm,m=0,1,…,M-1。

(5)舍去代表直流成分的D0,取D1,D2,…,DK作為MFCC參數。此處K=12。

3.3 特定人語(yǔ)音識別算法

在孤立詞語(yǔ)音識別中,最為簡(jiǎn)單有效的方法是采用DTW算法,設參考模板特征矢量序列為A={a1,a2,…,aj),輸入語(yǔ)音特征矢量序列為B={b1,b2,…,bk),j≠k。DTW算法就是要尋找一個(gè)最佳的時(shí)間規整函數,使得語(yǔ)音輸入B的時(shí)間軸k映射到參考模板A的時(shí)間軸j上總的累計失真最小。

將己經(jīng)存入模板庫的各個(gè)詞條稱(chēng)為參考模板,一個(gè)參考模板可以表示為{R(1),R(2),…,R(M)},m為訓練語(yǔ)音幀的時(shí)序標號,m=1為起點(diǎn)語(yǔ)音幀,m=M為終點(diǎn)語(yǔ)音幀,因此M為該模式包含的語(yǔ)音幀總數,R(m)為第m幀語(yǔ)音的特征矢量。所要識別的一個(gè)輸入詞條語(yǔ)音稱(chēng)為參考模板,可表示為{T(1),T(2),…,T(N)),n為測試語(yǔ)音幀標號,模板中共包含N幀音,T(n)為第n幀音的特征矢量。

為了比較它們的相似度,可以計算,它們之間的失真D[T,R],失真越小相似度越高。為了計算這一失真,應從T和R中各個(gè)對應幀之間的失真算起。將各個(gè)對應幀之間的失真累計起來(lái)就可以得到兩模式間的總失真。很容易想到的辦法是當兩模式長(cháng)度相等時(shí),直接以相等的幀號相匹配后累加計算總失真,而當兩個(gè)模式長(cháng)度不等時(shí)則利用線(xiàn)性擴張或線(xiàn)性壓縮的方法使兩模式具有相等長(cháng)度,隨后進(jìn)行匹配計算失真度。但由于人類(lèi)發(fā)音具有隨機的非線(xiàn)性變化,這種方法效果不可能是最佳的。為了達到最佳效果,可以采用的方法。如圖4所示,橫坐標對應“1”這個(gè)字音的一次較短的發(fā)音,經(jīng)過(guò)分幀和特征矢量計算后共得到一個(gè)長(cháng)度為43幀的語(yǔ)音序列,而縱坐標對應“1”這個(gè)字音的一次較長(cháng)的發(fā)音,該語(yǔ)音特征序列共有56幀。為了找到兩個(gè)序列的最佳匹配路徑,現把測試模式的各個(gè)幀號n=1~N(圖4中N=43)在一個(gè)二維直角坐標系中的橫軸上標出,把參考模式的各幀號m=1~M(圖4中M=56)在縱軸上標出。

通過(guò)這些表示幀號的整數坐標畫(huà)一些縱橫線(xiàn)即可形成一個(gè)網(wǎng)格,網(wǎng)格中何一個(gè)節點(diǎn)(n,m)表示測試模式中的某一幀和參考模式中的某一幀的交匯點(diǎn)。動(dòng)態(tài)時(shí)間規整算法可以歸結為尋找一條通過(guò)此網(wǎng)格中若干交叉點(diǎn)的路徑,路徑通過(guò)的交叉點(diǎn)即為參考模式和測試模式中進(jìn)行失真計算的幀號。路徑不是隨意選擇的,首先任何一種語(yǔ)音的發(fā)音快慢可能有變化,但是各部分的先后順序不可能改變,因此所選的路徑必定從左下角出發(fā),在右上角結束。其次為了防止漫無(wú)目的的搜索,可以刪去那些向n軸方向或者m軸方向過(guò)分傾斜的路徑(例如,過(guò)分向n軸傾斜意味著(zhù)R(m)壓縮很大而T(n)擴張很大,而實(shí)際語(yǔ)音中這種壓、擴總是有限的)。為了引入這個(gè)限制,可以對路徑中各通過(guò)點(diǎn)的路徑平均斜率的最大值和最小值予以限制。通常最大斜率定為2,最小平均斜率定為1/2。路徑的出發(fā)點(diǎn)可以選擇(n,m)=(1,1)點(diǎn),也可以選擇(n,m)=(1,2)或(1,3)或(2,1)或(3,1)…點(diǎn)出發(fā)。前者稱(chēng)為固定起點(diǎn),后者稱(chēng)為松弛起點(diǎn)。同樣,路徑可在(n,m)=(N,M)點(diǎn)結束,也可以在(n,m)=(N,M-1)或(N,M-2)或(N-1,M)或(N-2,M)…點(diǎn)結束。前者稱(chēng)為固定終點(diǎn),后者稱(chēng)為松弛終點(diǎn)。

使用DTW算法為核心直接構造識別系統十分簡(jiǎn)單,首先通過(guò)訓練得到詞匯表中各參考語(yǔ)音的特征序列,直接將這些序列存儲為模板。在進(jìn)行識別時(shí),將待識語(yǔ)音的特征序列依次與各參考語(yǔ)音特征序列進(jìn)行DTW匹配,最后得到的總失真度最小且小于識別閾值的就認為是識別結果。該方法最顯著(zhù)的優(yōu)點(diǎn)是識別率極高,大大超過(guò)目前多數的HMM語(yǔ)音識別系統和VQ語(yǔ)音識別系統。但其最明顯的缺點(diǎn)是由于需要對大量路徑及這些路徑中的所有節點(diǎn)進(jìn)行匹配計算,導致計算量極大,隨著(zhù)詞匯量的增大其識別過(guò)程甚至將達到難以接受的程度,因此無(wú)法直接應用于大、中詞匯量識別系統。

4 結 語(yǔ)

以本系統為基礎開(kāi)發(fā)了一種語(yǔ)音撥號系統,經(jīng)過(guò)大量實(shí)驗表明,該系統電路運行穩定,且識別率可以達到90%。系統成本低,稍加改進(jìn)就可把該語(yǔ)音識別模塊移植應用到各種系統設備中。

c語(yǔ)言相關(guān)文章:c語(yǔ)言教程


矢量控制相關(guān)文章:矢量控制原理
鎖相環(huán)相關(guān)文章:鎖相環(huán)原理


評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>