非特定人車(chē)載音響語(yǔ)音控制系統
隨著(zhù)現代電子技術(shù)在汽車(chē)系統中的不斷應用,越來(lái)越多的車(chē)載電器加入到車(chē)身電子行列中,使得汽車(chē)的各種性能都得到了極大的改善,但汽車(chē)駕駛室的開(kāi)關(guān)也越來(lái)越多,這就為駕駛員行車(chē)中對車(chē)載電器的操作提出了更高的要求,同時(shí)也給行車(chē)過(guò)程帶來(lái)了不安全的隱患。隨著(zhù)語(yǔ)音識別算法的改進(jìn)和新一代Soc專(zhuān)用語(yǔ)音處理芯片的問(wèn)世,使用語(yǔ)音命令控制汽車(chē)電器的操作能夠部分用口代替手的功能,從而減輕駕駛員操作負擔,提高行車(chē)安全系數。
本文引用地址:http://dyxdggzs.com/article/270513.htm目前我國的車(chē)身電子語(yǔ)音控制主要集中在汽車(chē)導航系統的應用上,沒(méi)有充分發(fā)揮語(yǔ)音識別技術(shù)在車(chē)身電子中的應用價(jià)值。本文提出了一種的以專(zhuān)用語(yǔ)音處理芯片UniSpeech-SDA80D51為核心控制車(chē)載音響操作的設計方案,并在SL1102C1型車(chē)載音響上實(shí)現了對非特定人的語(yǔ)音識別與控制。
語(yǔ)音控制器硬件
車(chē)載語(yǔ)音控制器系統由定向拾音器、語(yǔ)音識別模塊、控制模塊和音響模塊組成。系統的功能是:由拾音器采集駕駛員發(fā)出的語(yǔ)音命令,利用語(yǔ)音識別模塊將拾音器輸出的語(yǔ)音物理聲音信號轉變成語(yǔ)音數字信號,并識別出語(yǔ)音命令對應的漢字或詞語(yǔ),之后由控制模塊產(chǎn)生與之對應的詞條編碼指令,通過(guò)系統I/O口線(xiàn)將控制命令傳達給音響,車(chē)載音響接收到控制指令產(chǎn)生動(dòng)作,響應駕駛員的語(yǔ)音命令,比如快進(jìn)、快退或音量調節等。系統結構及原理框圖如圖1所示:

語(yǔ)音識別模塊主要由UniSpeech-SDA80D51芯片及外圍電路組成。本模塊主要實(shí)現對輸入的非特定人語(yǔ)音信號的識別和處理功能,輸出與語(yǔ)音命令對應的詞條編碼。
SDA80D51是Infineon公司專(zhuān)為語(yǔ)音識別和語(yǔ)音處理應用領(lǐng)域新推出的專(zhuān)用芯片,采用高集成度的Soc系統結構以0.18μm半導體工藝制造,擁有8位高速增強型M8051核心(25MIPS)和16位定點(diǎn)DSP核心OAK(100MIPS)的雙核架構,片內集成了直接雙訪(fǎng)問(wèn)快速SRAM、2路ADC和2路DAC(有效精度為12Bit)、多種通信接口和通用GPIO等設備,外部只需擴展Flash存儲器等少量外圍電路即可構成完整應用系統。
控制模塊由MCU和模擬開(kāi)關(guān)電路構成,本模塊主要完成對語(yǔ)音識別模塊輸出的識別結果——詞條編碼信號進(jìn)行邏輯分析和處理,通過(guò)模擬開(kāi)關(guān)電路產(chǎn)生對應功能的控制信號輸出到音響,控制音響的操作。其中MCU選用美國ATMEL公司產(chǎn)品AT89S51,由于車(chē)載音響SL1102C1上的按鍵控制面板為電阻式分流鍵盤(pán)電路,采用電壓采樣識別模式,對不同鍵值進(jìn)行識別,綜合SDA80D51芯片輸出的I/O電壓特性,確定使用繼電器模擬SL1102C1控制面板按鍵的閉合和斷開(kāi)動(dòng)作。
本設計是基于安徽森力公司的SL1102C1汽車(chē)音響。SL1102C1是專(zhuān)門(mén)為中檔轎車(chē)設計的汽車(chē)音響,具有MP3播放、收音機和顯示時(shí)間等功能,目前大量使用在江淮同悅轎車(chē)上。SL1102C1前板共有15個(gè)按鍵和一個(gè)用來(lái)調節音量的編碼開(kāi)關(guān)。分別為開(kāi)關(guān)機/靜音、音效設置、6個(gè)臺位、播放/暫停、隨機播放、重復播放、瀏覽播放、選擇下曲(快進(jìn))、選擇上曲(快退)、向下搜臺/上一曲、向上鎖臺/下一曲、模式轉換、電臺瀏覽/自動(dòng)存儲臺、波段切換、顯示時(shí)間/時(shí)間設置和復位等功能。
音響前板上的按鍵為電壓采樣識別方式,按鍵包含短按(延時(shí)小于0.2s)和長(cháng)按(延時(shí)大于1s)兩種動(dòng)作,控制模塊MCU(AT89S51)的輸出電壓為T(mén)TL電平,直接采用MCU信號驅動(dòng)音響按鍵動(dòng)作容易引起誤識別,造成系統誤操作,因此本文采用模擬開(kāi)關(guān)電路,很好地解決了上述問(wèn)題。當AT89S51接收到語(yǔ)音模塊輸出的一個(gè)語(yǔ)音命令識別結果編碼信號后,立即進(jìn)行邏輯分析并輸出對應的控制信號驅動(dòng)相應繼電器吸合模擬按鍵動(dòng)作,按鍵的短按和長(cháng)按功能是通過(guò)軟件實(shí)現的。
系統軟件設計
系統的軟件包括:非特定人語(yǔ)音識別模塊和邏輯控制模塊。
非特定人語(yǔ)音識別模塊基于HMM模型算法。該算法通過(guò)對大量語(yǔ)音數據進(jìn)行數據統計,建立識別詞條的統計模型語(yǔ)音庫,然后從待識別語(yǔ)音中提取特征,與模型庫進(jìn)行匹配,由比較匹配分數得到識別結果,并通過(guò)SDA80D51的GPIO口輸出識別結果對應的詞條編碼信號。語(yǔ)音識別模塊主要由信號預處理、特征參數提取、模型匹配和Viterbi算法部分組成。
信號預處理部分主要完成輸入語(yǔ)音信號的采樣、模/數轉換功能。A/D變換由SDA80D51內嵌12位A/D變換器實(shí)現,采樣頻率固定為8 kHz.
特征參數提取基于語(yǔ)音幀,采用分幀提取特片。先對語(yǔ)音信號進(jìn)行重疊分幀,前一幀和后一幀重疊一半(幀信號重疊是體現相鄰兩幀數據之間的相關(guān)性),幀長(cháng)為25ms,對每幀提取一次語(yǔ)音特片。
MFCC參數屬于感知頻域倒譜參數,反映了語(yǔ)音信號短時(shí)幅度譜的特征。p維MFCC參數的提取過(guò)程如圖1所示。
其中:m是幀號,N是單位幀內的采樣點(diǎn)數。
HMM是描述語(yǔ)音信號的一種概率統計模型,使用MarKov鏈來(lái)模擬語(yǔ)音信號統計特性的變化,HMM模型是在Markov鏈的基礎上發(fā)展起來(lái)的。
Viterbi算法是一種幀同步動(dòng)態(tài)規整算法,在給定觀(guān)察值序列和模型時(shí),Viterbi算法給出了一個(gè)概率密度P(Q,O |λ)最大的狀態(tài)序列。
控制模塊的主要功能是:在單片機查詢(xún)到語(yǔ)音模塊輸出的語(yǔ)音詞條信號后,查表獲得詞條編碼,根據編碼判斷對應按鍵是長(cháng)按或短按,分別進(jìn)入相應的子程序處理,長(cháng)按子程序延時(shí)1s,短按子程序延時(shí)0.2s.在子程序中,輸出語(yǔ)音命令所對應的I/O控制信號驅動(dòng)繼電器吸合模擬按鍵或編碼開(kāi)關(guān)動(dòng)作,并及時(shí)復位I/O口。為了避免語(yǔ)音控制和手動(dòng)控制之間沖突,語(yǔ)音控制模塊可以完全兼容于手動(dòng)控制,在語(yǔ)音控制操作時(shí),同時(shí)可以進(jìn)行手動(dòng)控制。
實(shí)驗結果及結論
本系統的樣機實(shí)驗主要是測試非特定人的語(yǔ)音識別率和模擬開(kāi)關(guān)動(dòng)作的準確率。由于汽車(chē)音響的語(yǔ)音詞條為2~4個(gè)字,語(yǔ)音識別率實(shí)驗內容為車(chē)載音響常用2字詞條指令18條、3字詞條指令12條、4字詞條指令10條,實(shí)驗對象為6人4男、2女(普通話(huà)和方言),實(shí)驗環(huán)境為噪聲干擾環(huán)境和相對安靜環(huán)境,樣機測試結果如表1所示。

dc相關(guān)文章:dc是什么
評論