基于TI的OMAP平臺手持設備語(yǔ)音應用解決方案
語(yǔ)音技術(shù)的應用正在不斷增加,從而為應用開(kāi)發(fā)商在手持設備、移動(dòng)設備和無(wú)線(xiàn)個(gè)人設備中增加高價(jià)值的功能帶來(lái)了難得的機會(huì )。今天的個(gè)人手持設備語(yǔ)音大多時(shí)候僅僅局限于語(yǔ)音撥號,但是已經(jīng)出現了適用于更廣泛開(kāi)發(fā)語(yǔ)音識別和文本到語(yǔ)音應用的技術(shù)。打算增加語(yǔ)音功能的開(kāi)發(fā)商需要熟知語(yǔ)音技術(shù)的方方面面。這些問(wèn)題不但包括處理和內存要求,而且還包括特定的平臺架構和支持如何促進(jìn)開(kāi)發(fā)過(guò)程并縮短上市時(shí)間。
利用語(yǔ)音應用增值可帶來(lái)豐厚的潛在利益。根據各種市場(chǎng)研究公司的估計,未來(lái)兩年個(gè)人手持設備的綜合年增長(cháng)率預計能達到 20%,到2004年全球的總設備交貨量將達到7億件。為了利用增值語(yǔ)音應用敲開(kāi)這個(gè)巨大的市場(chǎng),開(kāi)發(fā)商必須求助于能夠給他們帶來(lái)高性能、低功耗的底層技術(shù)以及能夠幫助他們迅速推出新產(chǎn)品的支持。
語(yǔ)音功能為用戶(hù)提供自然的輸入和輸出方式,它比其他形式的I/O更安全,尤其是當用戶(hù)在開(kāi)車(chē)期間。在大多應用中,語(yǔ)音都是鍵盤(pán)和顯示器的理想補充,而并不是它們的替代品。例如,在非常嘈雜的環(huán)境中,聽(tīng)和說(shuō)可能都不現實(shí),因此用戶(hù)可能就必須依賴(lài)鍵盤(pán)輸入和顯示閱讀。類(lèi)似,用戶(hù)通常喜歡用鍵盤(pán)輸入某些東西,如:PIN號碼和密碼,而不愿意大聲說(shuō)出來(lái)讓別人也聽(tīng)到。
語(yǔ)音撥號是當今個(gè)人無(wú)線(xiàn)設備中最常用的語(yǔ)音技術(shù)。語(yǔ)音撥號通常無(wú)需手和耳朵即可打電話(huà),這是在開(kāi)車(chē)時(shí)尤為重要的功能。語(yǔ)音撥號包括名字撥號,即按通訊簿上的名字打電話(huà),另外還包括號碼撥號,即說(shuō)出電話(huà)號碼。如圖1所示,其他潛在的語(yǔ)音應用包括:
1.語(yǔ)音電子郵件?D?D 包括瀏覽郵箱、利用語(yǔ)音輸入寫(xiě)電子郵件以及收聽(tīng)電子郵件的讀出。
2.信息檢索?D?D股票價(jià)格、標題新聞、航班信息、天氣預報等都可通過(guò)語(yǔ)音從互聯(lián)網(wǎng)收聽(tīng)。例如,用戶(hù)不用先進(jìn)入某個(gè)網(wǎng)址并輸入股票名字或者瀏覽預定義的列表,便可以命令:我的股票報價(jià),德州儀器。
3.個(gè)人信息管理?D?D允許用戶(hù)通過(guò)語(yǔ)音指定預約、查看日歷、添加聯(lián)絡(luò )信息等等。
4.語(yǔ)音瀏覽?D?D利用語(yǔ)音程序菜單,用戶(hù)可以在網(wǎng)上沖浪、添加語(yǔ)音收藏夾并收聽(tīng)網(wǎng)頁(yè)內容的讀出。
5.語(yǔ)音導航?D?D在自動(dòng)和眼不夠用的條件下獲取導航的完全語(yǔ)音輸入/輸出駕駛系統。
![]() |
語(yǔ)音技術(shù)問(wèn)題
語(yǔ)音系統必須滿(mǎn)足某些基本使用要求。很顯然,語(yǔ)音輸出必須清晰,使用戶(hù)能夠聽(tīng)懂。在給定應用用途中,ASR還必須支持自然語(yǔ)音。何為自然可謂變化無(wú)常,包括從逐字發(fā)出的簡(jiǎn)單名字和指令、到說(shuō)出大量詞匯的連續語(yǔ)句。另外,各人的自然語(yǔ)音以及發(fā)音方式也不同,因此系統應該能夠靈活接受不同說(shuō)話(huà)人說(shuō)話(huà)。識別引擎必須準確,否則用戶(hù)不會(huì )使用這種技術(shù)。
語(yǔ)音的系統要求是需要進(jìn)行大量處理,有可能包含巨大的內存,這取決于所支持的詞庫。就基于服務(wù)器的應用而言,無(wú)線(xiàn)帶寬的使用會(huì )有所增加。這些因素也會(huì )影響其他系統考慮。應用的MIPS和傳輸要求越高,給定系統的功耗就越高,因此會(huì )縮短電池壽命或導致更頻繁的充電。當應用需要采用處理器外置存儲器時(shí),響應時(shí)間也有可能增加。
某些應用權衡考慮有助于通過(guò)放棄手持設備不必要的功能來(lái)降低系統要求。只識別少量詞語(yǔ)、分散語(yǔ)音的基于說(shuō)話(huà)人的系統會(huì )比識別大型詞庫、連續語(yǔ)音的基于說(shuō)話(huà)人的系統要求少很多的資源。對其他語(yǔ)言的支持會(huì )增加處理要求并且使應用所需要的內存加倍??乖胍艉涂垢蓴_性是重要的特性,但是會(huì )增加復雜性和內存要求。
很顯然,開(kāi)發(fā)商在增加說(shuō)話(huà)人依賴(lài)性、連續語(yǔ)音、詞庫規模和語(yǔ)言支持等功能時(shí)希望盡可能少地降低基本應用的性能。有某些選項有助于減少語(yǔ)音技術(shù)中的性能降低,如:分布式語(yǔ)音識別(DSR)。DSR把識別任務(wù)分割開(kāi),這樣手持設備可以把原始語(yǔ)音轉換成頻譜特性向量,同時(shí)服務(wù)器執行識別過(guò)程。這種方法以及類(lèi)似的分布式TTS方法依賴(lài)于處理方法和傳輸協(xié)議的標準化。盡管這些技術(shù)頗有前途,但是,開(kāi)發(fā)商仍然面臨個(gè)人手持設備中語(yǔ)音應用的有限資源。
因此,為語(yǔ)音等高性能應用選擇適當的平臺與精心設計應用的功能同樣重要。這種平臺必須具有強大的處理能力,同時(shí)可以實(shí)現高水平的功效,不僅僅是在內核操作中,而且在處理內存中也應如此。應該有足夠的MIPS來(lái)支持多媒體、安全和其他補充應用。提供集成新算法能力的可編程性也很重要。最后,這種平臺必須包含為支持模塊化應用開(kāi)發(fā)所設計的軟件架構,以幫助開(kāi)發(fā)商快速把產(chǎn)品推向市場(chǎng)。
OMAP技術(shù):卓越的語(yǔ)音平臺
TI的OMAP平臺為在個(gè)人手持設備中開(kāi)發(fā)語(yǔ)音應用提供卓越的解決方案。 OMAP1510和OMAP5910處理器的雙內核架構集成了高功效的TMS320C55x?數字信號處理器(DSP)和高性能ARM9RISC微處理器。因此,這些OMAP處理器可提供語(yǔ)音所需要的算術(shù)集中的信號處理能力,同時(shí)還可提供系統層操作所需要的通用性能。OMAP710處理器是高度集成的單芯片解決方案,帶有用于無(wú)線(xiàn)通訊處理的、基于DSP的GSM/GPRS基帶、以及可低功耗執行多媒體應用的專(zhuān)用TI增強ARM925處理器。 OMAP1510、OMAP5910和OMAP710處理器可支持基于低端ARM的語(yǔ)音應用。它們還具有編碼兼容性,從而使開(kāi)發(fā)商能夠把軟件應用集成到針對不同市場(chǎng)的個(gè)人產(chǎn)品。OMAP1510和OMAP5910具有DSP處理能力,可處理更集中的語(yǔ)音應用。
雙核硬件架構
OMAP1510 和OMAP5910的雙核硬件平臺設計用于最大化系統性能和最小化功耗。在用于個(gè)人手持設備時(shí),DSP和RISC內核的結合給這些處理器提供了無(wú)與倫比的性能和功耗優(yōu)勢。RISC極其適合處理控制代碼,如:用戶(hù)界面、OS和高級應用。另一方面,DSP更適合語(yǔ)音應用所需要的實(shí)時(shí)信號處理功能。
如圖2所示,OMAP1510架構包含用于兩個(gè)處理器的片上高速緩沖存儲器,可降低到外部存儲器的平均發(fā)送次數,同時(shí)消除不必要的外部存取的功耗。兩個(gè)內核的內存管理單元(MMU)提供虛擬物理內存轉換。低功耗操作模式可保存不使用或者很少使用處理器期間的能力。
OMAP1510 架構還包含兩個(gè)外部存儲器接口和單個(gè)內存端口。這三個(gè)存儲器接口彼此完全獨立,可同時(shí)從任何一個(gè)內核或者從DMA單元進(jìn)行存取。每個(gè)處理器都具有自己的外設接口,其不但支持到外圍設備的直接連接同時(shí)還支持從處理器DMA單元的DMA連接。定時(shí)器、通用I/O、UART及監視定時(shí)器等在內的片上外設以及彩色 LCD控制器均支持OS一般的要求。
OMAP5910架構不但提供了片上系統功能同時(shí)還帶有諸如192KbytesRAM、USB1.1主機和客戶(hù)機、MMC/SD卡接口、多通道緩沖串口、實(shí)時(shí)時(shí)鐘、GPIO及UART、LCD接口、SPI、uWire及i2s等在內的外圍設備。與 OMAP1510類(lèi)似,OMAP5910也包含內置的處理器間通訊機制,其提供與DSP連接的透明接口,以實(shí)現更輕松的代碼開(kāi)發(fā)。
![]() |
為OMAP平臺設計語(yǔ)音應用
在OMAP 開(kāi)發(fā)商網(wǎng)絡(luò )中,TI正與多家正在開(kāi)發(fā)ASR、TTS、DSR和語(yǔ)者驗證等在內的語(yǔ)音技術(shù)的主要第三方開(kāi)發(fā)商展開(kāi)合作。這些公司在市場(chǎng)中都有自己獨到的優(yōu)勢,而且他們還可以把這些優(yōu)勢帶給OMAP用戶(hù)。同時(shí),TI內部開(kāi)發(fā)了充分利用了OMAP平臺的雙內核架構優(yōu)勢的、專(zhuān)門(mén)用于小詞庫以及小型語(yǔ)音識別等的語(yǔ)音識別軟件。TI嵌入式語(yǔ)音識別器(TIESR)可提供如下功能:與說(shuō)話(huà)人無(wú)關(guān)的指令以及控制功能與說(shuō)話(huà)人無(wú)關(guān)的連續數字識別與說(shuō)話(huà)人無(wú)關(guān)的連續語(yǔ)音識別與說(shuō)話(huà)人有關(guān)的名稱(chēng)撥號、指令以及控制動(dòng)態(tài)語(yǔ)法和詞匯功能,可提高語(yǔ)音瀏覽等應用噪音環(huán)境中的抗擾性用于增強性能的可選說(shuō)話(huà)人適配功能
評論