基于HMM的連續小詞量語(yǔ)音識別系統的研究
摘要:為了提高語(yǔ)音識別效率及對環(huán)境的依賴(lài)性,文章對語(yǔ)音識別算法部分和硬件部分做了分析與改進(jìn),采用ARMS3C2410微處理器作為主控制模塊,采用UDA1314TS音頻處理芯片作為語(yǔ)音識別模塊,利用HMM聲學(xué)模型及Viterbi算法進(jìn)行模式訓練和識別,設計了一種連續的、小詞量的語(yǔ)音識別系統。實(shí)驗證明,該語(yǔ)音識別系統具有較高的識別率和一定程度的魯棒性,實(shí)驗室識別率和室外識別率分別達到95.6%,92.3%。
關(guān)鍵詞:語(yǔ)音識別;嵌入式系統;Hidden Markov Models;ARM;Viterbi算法
0 引言
嵌入式語(yǔ)音識別系統是應用各種先進(jìn)的微處理器在板級或是芯片級用軟件或硬件實(shí)現的語(yǔ)音識別。嵌入式技術(shù)與語(yǔ)音識別技術(shù)相結合,能使人們甩掉鍵盤(pán),通過(guò)語(yǔ)音命令對智能化終端進(jìn)行操作,人與智能化終端之間的這種自然快捷的交互方式有助于提高人機交互的效率,以適應嵌入式平臺存儲資源少,實(shí)時(shí)性要求高的特點(diǎn),增強人對智能化設備的控制,同時(shí),在語(yǔ)音識別技術(shù)發(fā)展過(guò)程中又以HMM的廣泛應用為特點(diǎn)。該算法通過(guò)對大量語(yǔ)音數據進(jìn)行數據統計,建立識別詞條的統計模型,然后從待識別語(yǔ)音中提取特征,與這些模型匹配,通過(guò)比較匹配概率,以獲得識別結果,通過(guò)建立大量的語(yǔ)音數據庫,就能獲得一個(gè)穩健的統計模型,提高在各種實(shí)際情況下的識別效率。
1 Markov鏈及隱馬爾可夫模型(HMM)
語(yǔ)音信號是一個(gè)可觀(guān)察的序列,在足夠小時(shí)間段上特性近似于穩定,但其總的過(guò)程可看作依次從相對穩定的某一特性過(guò)渡到另一特性,在整個(gè)分析區間內可將許多線(xiàn)性模型串接起來(lái),這就是Markov鏈。Markov鏈是Markov隨機過(guò)程的特殊情況,即Markov鏈式狀態(tài)和時(shí)間參數都離散的Markov過(guò)程。
隱馬爾可夫模型是對語(yǔ)音信號的時(shí)間序列結構建立統計模型,可將之看作一個(gè)數學(xué)上的雙重隨機過(guò)程:一個(gè)是用具有有限狀態(tài)數的Mar-kov鏈來(lái)模擬語(yǔ)音信號統計特性變化的隱含的隨機過(guò)程,另一個(gè)是與Mark-ov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀(guān)測序列的隨機過(guò)程。前者通過(guò)后者表現出來(lái),但前者的具體參數是不可測的。
一般來(lái)說(shuō),一個(gè)HMM是一個(gè)雙重隨機過(guò)程,由下述五個(gè)參數描述:
2 基于HMM的語(yǔ)音識別系統實(shí)現
人的言語(yǔ)過(guò)程實(shí)際上就是一個(gè)雙重隨機過(guò)程,語(yǔ)音信號本身是一個(gè)可觀(guān)測的時(shí)變序列,是由大腦根據語(yǔ)法知識和言語(yǔ)需要(不可觀(guān)測的狀態(tài))發(fā)出音素的參數流。HMM合理地模仿了這一過(guò)程,很好地描述了語(yǔ)音信號的整體非平穩性和局部平穩性,是較為理想的一種語(yǔ)音模型。從整段語(yǔ)音來(lái)看,人類(lèi)語(yǔ)音是一個(gè)非平穩的隨機過(guò)程,但是若把整段語(yǔ)音分割成若干短時(shí)語(yǔ)音信號,則可認為這些短時(shí)語(yǔ)音信號是平穩過(guò)程,就可以用線(xiàn)性手段對這些短時(shí)語(yǔ)音信號進(jìn)行分析。若對這些語(yǔ)音信號建立隱馬爾可夫模型,則可以辯識具有不同參數的短時(shí)平穩信號段,并可以跟蹤它們之間的轉化,從而解決了對語(yǔ)音的發(fā)音速率及聲學(xué)變化建立模型的問(wèn)題。
語(yǔ)音識別系統首先通過(guò)芯片內的A/D轉換器將模擬語(yǔ)音信號轉化為數字語(yǔ)音信號,然后對數字語(yǔ)音信號進(jìn)行處理(信號加窗、過(guò)濾),得到干凈的語(yǔ)音信號,再通過(guò)特征提取過(guò)程做出特征矢量,提取語(yǔ)音特征,最后由識別過(guò)程對說(shuō)話(huà)人語(yǔ)音進(jìn)行識別,得出識別結果??傮w來(lái)說(shuō),整個(gè)識別過(guò)程分為語(yǔ)音信號的預處理、語(yǔ)音信號的特征提取、語(yǔ)音庫的建立以及語(yǔ)音信號的識別等幾個(gè)主要階段,如圖1所示。
語(yǔ)音識別過(guò)程分為兩個(gè)部分:一是HMM訓練過(guò)程,得到HMM語(yǔ)音識別模型,即建立基本識別語(yǔ)音庫;二是HMM識別過(guò)程,得到語(yǔ)音識別結果。
評論