<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > 基于HMM的語(yǔ)音識別技術(shù)在嵌入式系統中的應用

基于HMM的語(yǔ)音識別技術(shù)在嵌入式系統中的應用

作者: 時(shí)間:2007-03-09 來(lái)源:網(wǎng)絡(luò ) 收藏
摘要:介紹語(yǔ)音識別技術(shù)在系統中的應用狀況與發(fā)展,以及在系統中使用HMM語(yǔ)音識別算法的優(yōu)點(diǎn),并對基于HMM語(yǔ)音識別技術(shù)的系統進(jìn)行介紹。關(guān)鍵詞:SoC芯片 HMM 語(yǔ)音識別 系統 語(yǔ)音識別ASR(Automatic Speech Recognition)系統的實(shí)用化研究是近十年語(yǔ)音識別研究的一個(gè)主要方向。近年來(lái),消費類(lèi)電子產(chǎn)品對低成本、高穩健性的語(yǔ)音識別片上系統的需求快速增加,語(yǔ)音識別系統大量地從實(shí)驗室的PC平臺轉移到嵌入式設備中。 語(yǔ)音識別技術(shù)目前在嵌入式系統中的應用主要為語(yǔ)音命令控制,它使得原本需要手工操作的工作用語(yǔ)音就可以方便地完成。語(yǔ)音命令控制可廣泛用于家電語(yǔ)音遙控、玩具、智能儀器及移動(dòng)電話(huà)等便攜設備中。使用語(yǔ)音作為人機交互的途徑對于使用者來(lái)說(shuō)是最自然的一種方式,同時(shí)設備的小型化也要求省略鍵盤(pán)以節省體積。 嵌入式設備通常針對特定應用而設計,只需要對幾十個(gè)詞的命令進(jìn)行識別,屬于小詞匯量語(yǔ)音識別系統。因此在語(yǔ)音識別技術(shù)的要求不在于大詞匯量和連續語(yǔ)音識別,而在于識別的準確性與穩健性。 對于嵌入式系統而言,還有許多其它因素需要考慮。首先是成本,由于成本的限制,一般使用定點(diǎn)DSP,有時(shí)甚至只能考慮使用MPU,這意味著(zhù)算法的復雜度受到限制;其次,嵌入式系統對體積有嚴格的限制,這就需要一個(gè)高度集成的硬件平臺,因此,SoC(System on Chip)開(kāi)始在語(yǔ)音識別領(lǐng)域嶄露頭角。SoC結構的嵌入式系統大大減少了芯片數量,能夠提供高集成度和相對低成本的解決方案,同時(shí)也使得系統的可靠性大為提高。 語(yǔ)音識別片上系統是系統級的集成芯片。它不只是把功能復雜的若干個(gè)數字邏輯電路放入同一個(gè)芯片,做成一個(gè)完整的單片數字系統,而且在芯片中還應包括其它類(lèi)型的電子功能器件,如模擬器件(如ADC/DAC)和存儲器。 筆者使用SoC芯片實(shí)現了一個(gè)穩定、可靠、高性能的嵌入式語(yǔ)音識別系統。包括一套全定點(diǎn)的DHMM和CHMM嵌入式語(yǔ)音識別算法和硬件系統。1 硬件平臺 本識別系統是在與Infineon公司合作開(kāi)發(fā)的芯片UniSpeech上實(shí)現的。UniSpeech芯片是為語(yǔ)音信號處理開(kāi)發(fā)的專(zhuān)用芯片,采用0.18μm工藝生產(chǎn)。它將雙核(DSP+MCU)、存儲器、模擬處理單元(ADC與DAC)集成在一個(gè)芯片中,構成了一種語(yǔ)音處理SoC芯片。這種芯片的設計思想主要是為語(yǔ)音識別和語(yǔ)音壓縮編碼領(lǐng)域提供一個(gè)低成本、高可靠性的硬件平臺。 該芯片為語(yǔ)音識別算法提供了相應的存儲量和運算能力。包括一個(gè)內存控制單元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核為16位定點(diǎn)DSP,運算速度可達到約100MIPS.MCU核是8位增強型8051,每?jì)蓚€(gè)時(shí)鐘周期為一個(gè)指令周期,其時(shí)鐘頻率可達到50MHz。 UniSpeech芯片集成了2路8kHz采樣12bit精度的ADC和2路8kHz采樣11bit的DAC,采樣后的數據在芯片內部均按16bit格式保存和處理。對于語(yǔ)音識別領(lǐng)域,這樣精度的ADC/DAC已經(jīng)可以滿(mǎn)足應用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。 2 嵌入式語(yǔ)音識別系統比較 以下就目前基于整詞模型的語(yǔ)音識別的主要技術(shù)作一比較。 (1)基于DTW(Dynamic Time Warping)和模擬匹配技術(shù)的語(yǔ)音識別系統。目前,許多移動(dòng)電話(huà)可以提供簡(jiǎn)單的語(yǔ)音識別功能,幾乎都是甚至DTM和模板匹配技術(shù)。 DTW和模板匹配技術(shù)直接利用提取的語(yǔ)音特征作為模板,能較好地實(shí)現孤立詞識別。由于DTW模版匹配的運算量不大,并且限于小詞表,一般的應用領(lǐng)域孤立數碼、簡(jiǎn)單命令集、地名或人名集的語(yǔ)音識別。為減少運算量大多數使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)運算。 DTW和模板匹配技術(shù)的缺點(diǎn)是只對特定人語(yǔ)音識別有較好的識別性能,并且在使用前需要對所有詞條進(jìn)行訓練。這一應用從20世紀90年代就進(jìn)入成熟期。目前的努力方向是進(jìn)一步降低成本、提高穩健性(采用雙模板)和抗噪性能。 (2)基于隱含馬爾科夫模型HMM(Hidden Markov Model)的識別算法。這是Rabiner等人在20世紀80年代引入語(yǔ)音識別領(lǐng)域的一種語(yǔ)音識別算法。該算法通過(guò)對大量語(yǔ)音數據進(jìn)行數據統計,建立識別條的統計模型,然后從待識別語(yǔ)音中提取特征,與這些模型匹配,通過(guò)比較匹配分數以獲得識別結果。通過(guò)大量的語(yǔ)音,就能夠獲得一個(gè)穩健的統計模型,能夠適應實(shí)際語(yǔ)音中的各種突發(fā)情況。因此,HMM算法具有良好的識別性能和抗噪性能。 基于HMM技術(shù)的識別系統可用于非特定人,不需要用戶(hù)事先訓練。它的缺點(diǎn)在于統計模型的建立需要依賴(lài)一個(gè)較大的語(yǔ)音庫。這在實(shí)際工作中占有很大的工作量。且模型所需要的存儲量和匹配計算(包括特征矢量的輸出概率計算)的運算量相對較大,通常需要具有一定容量SRAM的DSP才能完成。 在嵌入式語(yǔ)音識別系統中,由于成本和算法復雜度的限制,HMM算法特別CHMM(Continuous density HMM)算法尚未得到廣泛的應用。 (3)人工神經(jīng)網(wǎng)絡(luò )ANN(Artificial Neural Network)。ANN在語(yǔ)音識別領(lǐng)域的應用是在20世紀80年代中后期發(fā)展起來(lái)的。其思想是用大量簡(jiǎn)單的處理單元并行連接構成一種信息處理系統。這種系統可以進(jìn)行自我更新,且有高度的并行處理及容錯能力,因而在認知任務(wù)中非常吸引人。但是ANN相對于模式匹配而言,在反映語(yǔ)音的動(dòng)態(tài)特性上存在重大缺陷。單獨使用ANN的系統識別性能不高,所以目前ANN通常在多階段識別中與HMM算法配合使用。3 基于HMM的語(yǔ)音識別系統 下面詳細介紹基于HMM的語(yǔ)音識別系統。首先在UniSpeech芯片上實(shí)現了基于DHMM的識別系統,然后又在同一平臺上實(shí)現了基于CHMM的識別系統。 3.1 前端處理 語(yǔ)音的前端處理主要包括對語(yǔ)音的采樣、A/D變換、分幀、特片提取和端點(diǎn)檢測。 模擬語(yǔ)音信號的數字化由A/D變換器實(shí)現。ADC集成在片內,它的采樣頻率固定為8kHz。 特征提取基于語(yǔ)音幀,即將語(yǔ)音信號分為有重疊的若干幀,對每一幀提取一次語(yǔ)音特片。由于語(yǔ)音特征的短時(shí)平穩性,幀長(cháng)一般選取20ms左右。在分幀時(shí),前一幀和后一幀的一部分是重疊的,用來(lái)體現相鄰兩幀數據之間的相關(guān)性,通常幀移為幀長(cháng)的1/2。對于本片上系統,為了方便做FFT,采用的幀長(cháng)為256點(diǎn)(32ms),幀移為128點(diǎn)(16ms)。 特征的選擇需要綜合考慮存儲量的限制和識別性能的要求。在DHMM系統中,使用24維特征矢量,包括12維MFCC(Mel Frequency Cepstrum Coefficient)和12維一階差分MFCC;在CHMM系統中,在DHMM系統的基礎上增加了歸一化能量、一階差分能量和二階差分能量3維特征,構成27維特征矢量。對MFCC和能量分別使用了倒譜均值減CMS(Cepstrum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩健性。 3.2 聲學(xué)模型 在HMM模型中,首先定義了一系列有限的狀態(tài)S1…SN,系統在每一個(gè)離散時(shí)刻n只能處在這些狀態(tài)當中的某一個(gè)Xn。在時(shí)間起點(diǎn)n=0時(shí)刻,系統依初始概率矢量π處在某一個(gè)狀態(tài)中,即: πi=P{X0=Si},i=1..N 以后的每一個(gè)時(shí)刻n,系統所處的狀態(tài)Xn僅與前一時(shí)刻系統的狀態(tài)有關(guān),并且依轉移概率矩陣A跳轉,即: 系統在任何時(shí)刻n所處的狀態(tài)Xn隱藏在系統內部,并不為外界所見(jiàn),外界只能得到系統在該狀態(tài)下提供的一個(gè)Rq空間隨機觀(guān)察矢量On。On的分布B稱(chēng)為輸出概率矩陣,只取決于Xn所處狀態(tài): Pxn=Si{On}=P{On|Si} 因為該系統的狀態(tài)不為外界所見(jiàn),因此稱(chēng)之為“穩含馬爾科夫模型”,簡(jiǎn)稱(chēng)HMM。 在識別中使用的隨機觀(guān)察矢量就是從信號中提取的特征矢量。按照隨機矢量Qn的概率分布形時(shí),其概率密度函數一般使用混合高斯分布擬合。 其中,M為使用的混合高斯分布的階數,Cm為各階高期分布的加權系數。此時(shí)的HMM模型為連續HMM模型(Continuous density HMM),簡(jiǎn)稱(chēng)CHMM模型。在本識別系統中,采用整詞模型,每個(gè)詞條7個(gè)狀態(tài)同,包括首尾各一個(gè)靜音狀態(tài);每個(gè)狀態(tài)使用7階混合高斯分布擬合。CHMM識別流程如圖1所示。 由于CHMM模型的復雜性,也可以假定On的分布是離散的。通常采用分裂式K-Mean算法得到碼本,然后對提取的特征矢量根據碼本做一次矢量量化VQ(Vector Quantization)。這樣特征矢量的概率分布上就簡(jiǎn)化為一個(gè)離散的概率分布矩陣,此時(shí)的HMM模型稱(chēng)為離散HMM模型(Discrete density HMM),簡(jiǎn)稱(chēng)DHMM模型。本DHMM識別系統使用的碼本大小為128。DHMM識別流程如圖2所示。 DHMM雖然增加了矢量量化這一步驟,但是由于簡(jiǎn)化了模型的復雜度,從而減少了占用計算量最大的匹配計算。當然,這是以犧牲一定的識別性能為代價(jià)。 筆者先后自己的硬件平臺上完成了基于DHMM和CHMM的識別系統。通過(guò)比較發(fā)現,對于嵌入式平臺而言,實(shí)現CHMM識別系統的關(guān)鍵在于芯片有足夠運算太多的增加。因為詞條模型存儲在ROM中,在匹配計算時(shí)是按條讀取的。 3.3 識別性能 筆者使用自己的識別算法分別對11詞的漢語(yǔ)數碼和一個(gè)59詞的命令詞集作了實(shí)際識別測試,識別率非常令人滿(mǎn)意,如表1所示。表1 漢語(yǔ)數碼識別率  DHMMCHMM特征矢量維數2427識別率93.40%98.28%識別速度(11詞)10ms50ms模型大?。?個(gè)詞條)1.5KB<5.5KB碼本6KB無(wú)對于59詞命令詞集的識別,還增加了靜音模型。由于基線(xiàn)的識別率已經(jīng)很高,所以靜音模型的加入對于識別率的進(jìn)一步提高作用不大,如表2所示。但靜音模型的加入可以降低對端點(diǎn)判斷的依賴(lài)。這在實(shí)際使用中對系統的穩健性有很大的提高。表2 59詞命令詞集識別率  浮 點(diǎn)定 點(diǎn)無(wú)靜音模型98.59%98.28%有靜音模型98.83%98.55%可以看到,在硬件能夠支持的情況下,CHMM的識別率比DHMM有很大的提高,同時(shí)識別速度也完全可以滿(mǎn)足使用要求。 目前嵌入式語(yǔ)音識別領(lǐng)域使用HMM模型的還比較少,使用通常限于DHMM。由于集成電路制造技術(shù)的發(fā)展,目前主流DSP都可以提供100MIPS以上的運算速度,完全可以滿(mǎn)足CHMM對計算能力的要求。 筆者在使用SoC芯片的硬件平臺上實(shí)現了DHMM和CHMM算法。其中定點(diǎn)CHMM語(yǔ)音識別算法在16位定點(diǎn)DSP硬件平臺上達到很高的識別率,同時(shí)系統資源消耗也比較合理,安全可以替代DHMM算法。非常適合50詞以?xún)鹊拿钤~識別。以上算法已經(jīng)在芯片上實(shí)現,該方案在家電語(yǔ)音遙控、玩具、PDA、智能儀器以及移動(dòng)電話(huà)等領(lǐng)域內有非常好的應用前景。 linux操作系統文章專(zhuān)題:linux操作系統詳解(linux不再難懂)


評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>