基于中英文數字語(yǔ)音登陸系統的仿真研究
摘要:為了方便學(xué)生使用中文或英文說(shuō)出學(xué)號與名字登錄注冊系統,設計了中英文數字語(yǔ)音登錄系統。采用MFCC(Mel頻率倒譜系數)作為語(yǔ)音特征參數,在隱馬爾可夫模型HMM(Hidden Markov Model)框架下建立了基于語(yǔ)音識別開(kāi)發(fā)工具包HTK的中英文連續數字語(yǔ)音識別系統,包括對語(yǔ)音信號的預處理、特征參數的提取,識別模版的訓練,最后送到識別器進(jìn)行識別。通過(guò)建立中文、英文和中英文混合訓練集和測試集聲學(xué)模型,并得到了較高的識別率,從而加強多媒體注冊系統的穩定性和魯棒性。
本文引用地址:http://dyxdggzs.com/article/134004.htm引言
語(yǔ)言是人與人之間在日常交往中最直接也是最強大的工具,然而我們并不滿(mǎn)足于人與人之間的對話(huà),而是通過(guò)語(yǔ)音識別技術(shù)來(lái)實(shí)現人機對話(huà),語(yǔ)音識別技術(shù)的終極目標就是能夠讓人類(lèi)與計算機進(jìn)行自由地交談。隨著(zhù)語(yǔ)音識別技術(shù)的逐漸成熟及近些年來(lái)已經(jīng)取得的進(jìn)步,英文數字語(yǔ)音識別在其發(fā)展的20多年間已達到了很高的識別率,漢語(yǔ)數字語(yǔ)音識別也經(jīng)過(guò)多年研究在PC平臺和實(shí)驗室條件下達到了高性能,但中英文混合連續數字語(yǔ)音識別還有待進(jìn)一步研究,張晴晴等人研究的中英雙語(yǔ)混合語(yǔ)音識別的識別率為16.8%,遠低于理想中的識別率。為使識別效果達到可實(shí)用的水平,本系統首先從基本的中英文數字語(yǔ)音識別出發(fā),從而為相應的登錄注冊系統做出一些嘗試。
本文研究的中英文連續數字語(yǔ)音識別,包含中文0-10和英文zero-ten的數字語(yǔ)音識別,其中包括對語(yǔ)音信號的預處理、特征參數提取、中英文聲學(xué)模型與語(yǔ)言模型的訓練及模版匹配等,適合于研究數字語(yǔ)音登錄系統,比如用戶(hù)用中英文任何語(yǔ)言念學(xué)號或是身份證號就能登陸,免去書(shū)寫(xiě)的麻煩,同時(shí)也對后續研究中英文混合連續語(yǔ)音識別奠定了基礎。
語(yǔ)音識別原理
根據對說(shuō)話(huà)人說(shuō)話(huà)方式的要求,語(yǔ)音識別可以分為孤立字(詞)語(yǔ)音識別系統,連接字語(yǔ)音識別系統以及連續語(yǔ)音識別系統;根據對說(shuō)話(huà)人的依賴(lài)程度,語(yǔ)音識別可以分為特定人和非特定人語(yǔ)音識別系統;根據詞匯量大小,又可以分為小詞匯量、中等詞匯量、大詞匯量以及無(wú)限詞匯量的語(yǔ)音識別系統。不同的語(yǔ)音識別系統,其目的和功能各不相同,但它們所采用的基本框架大體一致,語(yǔ)音識別基本流程如圖1?!?/p>

語(yǔ)音識別的過(guò)程,其本質(zhì)就是模式匹配的過(guò)程。語(yǔ)音信號經(jīng)過(guò)預處理、語(yǔ)音信號的特征提取、聲學(xué)模型的訓練與模式匹配后,經(jīng)過(guò)處理輸出識別結果。其中:
1)預處理是對輸入的原始語(yǔ)音信號進(jìn)行處理,濾除掉其中不重要的信息和背景噪聲,并進(jìn)行語(yǔ)音信號的端點(diǎn)檢測、語(yǔ)音分幀以及預加重等處理。
2)特征提取主要負責計算語(yǔ)音的聲學(xué)參數,并進(jìn)行特征的計算,以便提取出反映信號特征的關(guān)鍵特征參數,從而用于后續處理。因Mel頻率倒譜系數(MFCC)具有良好的抗噪性和魯棒性,故本文采用MFCC提取特征參數。
3)訓練階段是用戶(hù)通過(guò)輸入若干次訓練語(yǔ)音后,經(jīng)預處理和特征提取后得到特征矢量參數,建立或修改訓練語(yǔ)音的參考模式庫。
評論