3G 手機語(yǔ)音識別應用中DSP的選擇策略
隨著(zhù)DSP技術(shù)的進(jìn)步,計算能力更強、功耗更低和體積更小的DSP已經(jīng)出現,使3G手機上植入更精確更復雜的自動(dòng)語(yǔ)音識別(ASR)功能成為可能。目前,基本ASR應用可以分成三大類(lèi):1. 語(yǔ)音-文本轉換(語(yǔ)音輸入);2. 講者識別;3. 語(yǔ)音命令控制(語(yǔ)音控制)。
這三類(lèi)功能包含了3G所需的眾多ASR性能。語(yǔ)音-文本轉換的典型實(shí)例是語(yǔ)音撥號和電子郵件聽(tīng)寫(xiě)。講者識別功能可以通過(guò)語(yǔ)音識別安全地讀出存儲器中的個(gè)人數據,從而滿(mǎn)足信用卡定購和銀行服務(wù)等保密性高的應用需要。語(yǔ)音命令控制功能包括連接語(yǔ)音擴展標記語(yǔ)言(VXML)網(wǎng)站內容的語(yǔ)音接口,它支持財經(jīng)服務(wù)與目錄助理等業(yè)務(wù)。目前VXML被用于規范網(wǎng)站內容的語(yǔ)音標簽。
語(yǔ)音識別的兩種方法
3G手機的ASR應用設計可分為兩類(lèi),即以終端為中心和以客戶(hù)/服務(wù)器為中心的應用。如圖1所示為以終端為中心的設計方法,3G手機(終端)執行整個(gè)語(yǔ)音識別過(guò)程并送出識別結果。在圖2所示的客戶(hù)/服務(wù)器方法中,終端只是執行預處理特征提取,然后通過(guò)一個(gè)誤碼受保護的數據信道將這些參數發(fā)送給中心服務(wù)器,中心服務(wù)器最終完成語(yǔ)音識別。如果采用以客戶(hù)/服務(wù)器為中心的設計方法,3G手機應使用數據信道而非移動(dòng)信道來(lái)將語(yǔ)音發(fā)送給服務(wù)器進(jìn)行識別,因為移動(dòng)信道所用的低速率語(yǔ)音編碼會(huì )嚴重影響語(yǔ)音識別的性能。
各種ASR系統的差異主要體現在詞匯量上。一個(gè)簡(jiǎn)單的網(wǎng)絡(luò )設備可能只需要16字的詞庫就能實(shí)現所要求的語(yǔ)音識別功能,而3G移動(dòng)手機則需要更大的專(zhuān)業(yè)詞庫。這些詞匯可以跟講者相關(guān)(訓練語(yǔ)音識別設備使之熟悉用戶(hù)的聲音特征)或跟講者無(wú)關(guān)(語(yǔ)音識別設備可以識別任何人的聲音),DSP的計算負荷就隨著(zhù)詞匯量和訓練數據的增加而增大。
例如,根據隱性馬爾可夫模型(HMM)可以分析一個(gè)典型的跟講者無(wú)關(guān)的100條命令識別的應用實(shí)例。假設HMM模型從左到右沒(méi)有跳躍地順序擺放,共有6個(gè)狀態(tài)、5個(gè)具有對角協(xié)方差的混合高斯分布,包含39個(gè)特征(13嘜-頻率對數系數或MFCC,及其一階和二階差分),具有16位精度,那么,HMM聲學(xué)模型的大小就是100×5×5×(39+2)×2=240kB。
為了實(shí)現輸入語(yǔ)音樣本差分、窗口截獲、MFCC抽取、概率計算和維特比搜索等運算的實(shí)時(shí)性,典型情況下需要消耗DSP的1千萬(wàn)個(gè)乘法-累加周期(MMAC)。對于連續語(yǔ)音識別來(lái)說(shuō),上千個(gè)三音素模型和多種語(yǔ)法模型需要更多的存儲空間,也需要更快的DSP處理速度。
因此,移動(dòng)電話(huà)中ASR系統的成敗很大程度上取決于DSP的功能和設計。第三代系統本身就需要比第二代系統更強性能的DSP,而增加ASR功能就對DSP提出了更高的要求。從結構角度看,對DSP性能的要求是處理速度快、功耗低和代碼密度高。
采用高速DSP是關(guān)鍵
由于系統要實(shí)時(shí)對語(yǔ)音進(jìn)行處理和取樣,因此語(yǔ)音識別系統需要具有巨大的計算能力。下面的數字和計算假設采用的是圍繞終端的設計方法。如果將DSP計算資源的20%分配給一個(gè)10MMAC的語(yǔ)音識別系統使用,那么就需要一個(gè)具有50MMAC的DSP才能滿(mǎn)足這一功能需要,并可提供足夠的空間執行3G手機所需的其它DSP任務(wù),如處理軟貓。如果采用較慢的DSP,如25MMAC的DSP,那么詞匯表中的命令數量就要減半,或減少HMM參數,這樣會(huì )降低整個(gè)系統性能。
DSP的速度決定了語(yǔ)音識別系統的復雜性和性能。舉例來(lái)說(shuō),如果一個(gè)基本的跟講者無(wú)關(guān)的連續語(yǔ)音識別系統需要100MMAC,DSP計算資源的50%用于滿(mǎn)足3G手機的其它DSP任務(wù)的需求,那么DSP的處理速度就需要達到200MMAC。
評論