ADSP-BF531在嵌入式語(yǔ)音識別系統中的應用
2.3 EEPROM接口設計
EEPROM主要用于存放程序代碼,選用ATMEL公司的AT45DB161D-TU型的EEPROM,該型存儲器采用SPI接口,容量為2 MB,可以滿(mǎn)足程序存儲的要求,其與DSP的SPI端口連接。
通過(guò)設置EEPROM存儲器的SPI主模式啟動(dòng)(即設置BMODE=11),現實(shí)配置BF531為連接一個(gè)SPI存儲器的主設備和存儲器的加載。為了正常工作,該加載模式需要在MISO加上拉電阻。否則,BF531將從MISO引腳讀取到0xFF(即SPI存儲器沒(méi)有寫(xiě)任何數據到MISO引腳)。不僅MISO線(xiàn)上的上拉電阻是必要的,額外的上、下拉電阻還有如下2個(gè)用途:
1)上拉PF2信號,確保SPI存儲器存DSP復位狀態(tài)下未激活;
2)在SPICLK上用下拉電阻,使顯示畫(huà)圖更加清晰。
2.4 FLASH接口設計
片外FLASH主要用于存訓練樣本庫,本系統采用的NANDFLASH為三星電子的K9F8G08U0M-PIB0,該FLASH為工業(yè)級SLC架構(Single Laver Cell,單層單元)芯片,具有速度快、可靠性高等特點(diǎn),而且容量為1 GB,可以滿(mǎn)足存儲大量樣本數據的要求。其采用EBIU(External Bus Interface Unit,外部數據總線(xiàn))和單個(gè)GPIO(General Purpose Input Output,通用輸入/輸出引腳實(shí)現與DSP數據通訊。
3 軟件設計
3.1 語(yǔ)音識別(孤立詞)的原理
本系統采用的孤立詞語(yǔ)音識別的原理框圖如圖4所示。本文引用地址:http://dyxdggzs.com/article/148467.htm
1)預處理 對聲源信號進(jìn)行抗混疊濾波、A/D轉換、預加重及端點(diǎn)檢測等內容,以獲得比較理想的處理信息對象。
2)特征提取 從語(yǔ)音波形中提取出隨時(shí)間變化的能夠反映原始語(yǔ)音特征的矢量序列。
3)語(yǔ)音訓練 建立聲學(xué)模型,將獲取的語(yǔ)音特征通過(guò)必要學(xué)習算法產(chǎn)生。
4)模式匹配 在識別時(shí)將輸入的語(yǔ)音特征同聲學(xué)模型進(jìn)行比較,得到識別結果。
在訓練階段,用戶(hù)將詞匯表中的詞依次讀一遍,并且將其特征矢量序列存入模板庫中。在識別階段,將輸入語(yǔ)音的特征矢量序列依次與模板庫中的每一個(gè)模板進(jìn)行形似度比較,相似度最高者作為識別結果輸出。
在HHM算法中,語(yǔ)音序列被看做馬爾可夫隨機過(guò)程的輸出。假定識別系統的詞匯表共包括V個(gè)詞條,那么在訓練階段需要請很多個(gè)說(shuō)話(huà)人分別將這次詞條說(shuō)一遍并存入數據庫中。利用這些訓練數據可以為每一個(gè)詞條建立一套HMM參數λv(1≤v≤V)。
在識別時(shí),對于每個(gè)待識別語(yǔ)音,可以得到一個(gè)觀(guān)察矢量序列Y=[y1,y2,…yN],其中,N為輸入語(yǔ)音所包含的幀數。語(yǔ)音識別的過(guò)程就是計算每個(gè)HMM模型λv產(chǎn)生Y的概率P(Y|λv),并使得該概率達到最大的HMM模型,那么該模型所對應的詞條即為孤立詞識別的結果,即:
3.2 語(yǔ)音識別算法設計
本系統采用VO/DHMM(矢量量化/離散隱馬爾可夫模型)算法,其主要包括預處理、特征提取、語(yǔ)音訓練、模式匹配等幾個(gè)方面。
3.2.1 預處理和特征提取
首先采用預加重、漢明窗、雙門(mén)限法等完成對語(yǔ)音信號的預處理;然后使用Mel倒譜參數(MFCC)進(jìn)行特征識別,MFCC參數提取的過(guò)程如圖5所示,其中Mel濾波器組的作用是利用人耳聽(tīng)覺(jué)特性對語(yǔ)音信號的幅度平方譜進(jìn)行平滑。對數操作的用途:壓縮語(yǔ)音譜的動(dòng)態(tài)范圍;考慮乘性噪聲,將頻域中的乘性成分轉換成加性成分。離散余弦變化主要是用來(lái)對不同頻段的頻譜成份進(jìn)行解相關(guān)處理,使得各維向量之間相互獨立。
評論