<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > 基于TMS320VC5507的語(yǔ)音識別系統實(shí)現

基于TMS320VC5507的語(yǔ)音識別系統實(shí)現

作者：時(shí)間：2008-04-21 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

摘要：語(yǔ)音識別片上系統可以實(shí)現簡(jiǎn)單的人機交互和語(yǔ)音控制，在家電、玩具及各種人機交互系統中有著(zhù)廣泛的應用前景。本文結合漢語(yǔ)語(yǔ)音特點(diǎn)，在TMS320VC5507芯片上實(shí)現了高性能特定人與非特定人中小詞匯量孤立詞識別系統。采用基于循環(huán)緩沖區的端點(diǎn)檢測算法，雙緩沖區的傳輸方式用于語(yǔ)音錄制和回放，分別采用降低特征維數的DTW算法和基于連續隱含馬爾可夫模型（CDHMM）的多級搜索算法作為核心識別算法，并給出實(shí)驗結果。
關(guān)鍵詞：特定人；非特定人；片上系統；德州儀器；直接存儲訪(fǎng)問(wèn)

1 語(yǔ)音識別片上系統概述

隨著(zhù)數字信號處理技術(shù)的發(fā)展，語(yǔ)音識別片上系統已成為人們研究的熱點(diǎn)。然而，復雜的系統與硬件需求的矛盾，一定程度上限制了它的應用和推廣。本文針對上述問(wèn)題，采用相應的識別策略^[1]，合理安排算法流程，完成了高性能特定人與非特定人識別系統的片上實(shí)現。

2 硬件平臺

DSP選型時(shí)需綜合考慮運算速度、成本、功耗、硬件資源和程序可移植性等因素。本系統采用美國德州儀器（TI）生產(chǎn)的TMS320VC5507定點(diǎn)DSP作為核心處理器^[2]，并配合使用PLL時(shí)鐘發(fā)生器、JTEG標準測試接口、異步通信串口、DMA控制器、通用輸入輸出GPIO端口以及多通道緩沖串口（McBSPs）等主要片內外設。系統硬件平臺如圖1所示。

VC5507 DSP芯片采用先進(jìn)的多總線(xiàn)結構，內含64 K16 bit的片上RAM和64 KB的ROM；片內可屏蔽ROM固化有引導轉載程序（Bootloader）和中斷向量表等；采用流水線(xiàn)結構提高指令執行的整體速度。與C54x系列DSP不同的是，VC5507DSP的存儲空間包括統一的數據、程序空間和I/O空間，尋址空間可達16 MB；片內包含兩個(gè)算術(shù)邏輯單元（ALUs），在最高時(shí)鐘頻率200 MHz下，指令周期可達5 ns，最高速度可達400 MIPS。

存儲器采用三菱公司生產(chǎn)的M5M29GB/T320VP系列Flash芯片。全片容量2 MW，分為128個(gè)扇區，通過(guò)外部存儲器接口（EMIF）方式與讀寫(xiě)時(shí)序接入DSP；采用2.7 V～3.6 V單電源供電。該系列Flash支持塊編程操作^[3]，讀寫(xiě)速度要快得多，有利于實(shí)時(shí)性的改善。

基金項目：國家自然科學(xué)基金資助項目60572083

圖1 語(yǔ)音識別系統硬件框圖

A/D、D/A轉換器采用英國Wolfson公司生產(chǎn)的WM8973L芯片。該芯片支持16位A/D、D/A轉換，具有可編程輸入輸出增益控制，可通過(guò)軟件設置8～96 KHz的多種采樣頻率^[4]。

3 軟件結構

3.1 系統概述

特定人識別系統采用12維MFCC參數作為識別引擎的特征參數，訓練與識別都是在片上實(shí)時(shí)實(shí)現的，系統框架如圖2（a）所示。在訓練階段，由片上實(shí)時(shí)提取每個(gè)詞條的特征參數存放到Flash中作為模板庫。在識別階段，將待識別詞條實(shí)時(shí)提取特征參數、端點(diǎn)檢測以后，利用動(dòng)態(tài)時(shí)間規整（DTW）算法與模板庫中的所有模板進(jìn)行匹配，選擇失真度最小的模板作為識別結果。當詞表改變時(shí)，只需調整Flash存儲方式，算法本身無(wú)需改動(dòng)。

(a) 特定人系統

（b）非特定人系統

圖2 識別系統框架

非特定人識別系統的輸入特征矢量為27維，包括12維MFCC、12維MFCC一階差分、一階對數能量、一階差分能量以及二階差分能量。系統以基于因素的CDHMM模型為基本識別框架，采用Viterbi解碼的幀同步搜索算法進(jìn)行識別。HMM模型訓練事先在PC機上進(jìn)行，而Viterbi搜索則在DSP芯片上實(shí)時(shí)實(shí)現，整個(gè)系統為雙層結構，如圖2（b）所示。

訓練階段主要完成如下任務(wù)：給定一個(gè)HMM模型和一組觀(guān)察矢量集合，采用迭代算法調整模型參數，使得新模型和給定的觀(guān)察矢量集合的似然度最大。首先用初始模型估計觀(guān)察矢量由隱含層所有可能的狀態(tài)序列輸出的后驗概率，然后根據前一步的估計結果，利用最大似然準則估計新的HMM模型，所得到的參數用作下一次迭代。識別階段采用Viterbi搜索，所構建的識別網(wǎng)絡(luò )包括狀態(tài)號和狀態(tài)連接關(guān)系等信息。為了減少網(wǎng)絡(luò )搜索的內存占用量，采用每個(gè)詞條單獨建立網(wǎng)絡(luò )的方法，使得每個(gè)詞條的搜索過(guò)程可在內存中獨立進(jìn)行^[5]。

3.2 語(yǔ)音傳輸與中斷程序設計

受硬件條件限制，系統的多任務(wù)調度是由中斷服務(wù)機制完成的。除了Reset和非屏蔽中斷（NMI）外，還設置了兩個(gè)DMA通道中斷。其中DMA通道2負責將麥克風(fēng)錄制的語(yǔ)音數據送至DSP內核進(jìn)行運算處理；DMA通道3負責將回放語(yǔ)音數據傳送至揚聲器輸出。

在內存中，分別設有兩個(gè)128 W的接收緩沖區和發(fā)送緩沖區。以接收端為例，對于8 kHz采樣語(yǔ)音，每0.125 ms接收一個(gè)16 bits的采樣數據，存入其中一個(gè)接收緩沖區中。16 ms后，該接收緩沖區滿(mǎn)，由DMA控制器向CPU發(fā)出中斷請求，進(jìn)行VAD、特征提取等操作。與此同時(shí)，另一個(gè)接收緩沖區繼續接收語(yǔ)音數據。這種數據傳輸方式又稱(chēng)為Ping-Pong傳輸，接收和發(fā)送分別設置兩個(gè)緩沖區，利用等待時(shí)隙，當其中一個(gè)緩沖區數據傳輸完成，產(chǎn)生中斷時(shí)，另一緩沖區繼續工作。這種雙緩沖區傳輸方式可以明顯改善系統實(shí)時(shí)性能。

3.3 端點(diǎn)檢測

輸入到硬件平臺的語(yǔ)音信號前后經(jīng)常含有大量靜音或噪聲。出于節省硬件資源的考慮，需要引入端點(diǎn)檢測算法。為了兼顧實(shí)時(shí)性能和硬件資源占用率，并防止語(yǔ)音切分過(guò)嚴而影響識別性能，采用基于循環(huán)緩沖技術(shù)的四階段語(yǔ)音實(shí)時(shí)檢測方法，將每幀語(yǔ)音能量與閾值相比較，同時(shí)依次存入長(cháng)度為的循環(huán)緩沖區并記錄當前位置。算法流程如圖3所示，其中、、、、為事先設定的閾值，它們是通過(guò)大量測試得到的。當檢測到連續幀語(yǔ)音能量高于閾值時(shí)，將循環(huán)緩沖區從當前位置斷開(kāi)，倒退幀作為語(yǔ)音起始點(diǎn)。

（a）端點(diǎn)檢測基本流程

（b）循環(huán)緩沖區設計

圖3 基于循環(huán)緩沖區的端點(diǎn)檢測流程

3.4 特定人識別系統的特征提取與DTW模板匹配

實(shí)驗表明，采用12維MFCC系數作為特征參數，既可以節省內存空間，又不會(huì )對識別率造成很大影響。每幀語(yǔ)音特征參數在內存數據空間中連續存放。采取動(dòng)態(tài)時(shí)間規整（DTW）算法，其本質(zhì)是一種寬度優(yōu)先的模板匹配過(guò)程，即將待識別詞條的特征矢量序列與每個(gè)模板進(jìn)行比較，找到一條總失真度最小的路徑作為識別結果^[6]。DTW算法簡(jiǎn)單，計算量小，占用內存小，可以解決語(yǔ)速不均勻的問(wèn)題，適用于特定人小詞匯量的孤立詞識別系統。

3.5 非特定人識別系統的多級Viterbi搜索與硬件資源消耗分析

非特定人識別基線(xiàn)系統難于在片上實(shí)現的瓶頸在于識別時(shí)間過(guò)長(cháng)。事實(shí)上，如果聲學(xué)模型構造合理，絕大多數錯誤結果的似然度往往與正確結果相差較遠。因此，本系統采用的基于Viterbi解碼的兩階段搜索策略，可以很大程度上緩解識別時(shí)間過(guò)長(cháng)的問(wèn)題。

第一階段為快速匹配階段。利用較為簡(jiǎn)單的208個(gè)狀態(tài)的單音子聲學(xué)模型，給出匹配程度最高的前Nbest個(gè)候選詞條，送入第二階段。第一階段所占用的主要內存空間有：詞條的所有特征，在使用27維特征，最大有效語(yǔ)音長(cháng)度為128幀情況下，需要6.8 KB；輸出分數矩陣，其大小由最大有效語(yǔ)音長(cháng)度和模型數量決定，是內存開(kāi)銷(xiāo)最主要的部分，在這里需要占用約62 KB的內存；所有詞條的對數似然度，200詞的情況下為0.8 KB。

第二階段為精確匹配階段，采用較復雜的358狀態(tài)雙音子模型，根據第一階段候選詞條構建新的識別網(wǎng)絡(luò )，進(jìn)行搜索識別。為了節約內存占用量，設定第一階段候選詞條數量的上限為8，這樣，第二階段可能出現的有效狀態(tài)數量不會(huì )超過(guò)208個(gè)，從而可以使占用內存最大的輸出概率矩陣復用第一階段輸出概率矩陣所占用的那段內存，提高內存使用效率^[7]。

4 實(shí)驗結果

錄音環(huán)境為辦公環(huán)境，8 kHz采樣，16 bit量化，每個(gè)詞條最大持續時(shí)間為2 s，端點(diǎn)檢測的循環(huán)緩沖區長(cháng)度 =7 W。特定人識別系統的測試語(yǔ)音為本實(shí)驗室自錄的100個(gè)孤立詞人名詞表，識別結果如表1所示。非特定人識別系統的訓練集為863男生連續語(yǔ)音數據，測試語(yǔ)音為200詞的人名詞表。第一階段多候選識別結果如圖4所示?？梢?jiàn)，雖然一候選的識別率不足94％，但隨著(zhù)候選詞條數的增加，正確識別結果幾乎都包含在第一階段前幾選的識別結果中。本文選用的八候選策略的識別率可以達到99.5％。系統最終識別結果如表2所示，識別率僅從基線(xiàn)系統的98.5％下降到97.5％，而識別時(shí)間僅為基線(xiàn)系統的30％。

表1 特定人系統識別性能

識別率	98.00%
識別時(shí)間（倍實(shí)時(shí)）	0.13
內存空間占用	程序空間	39 KB
	數據空間	22 KB

表2 非特定人系統識別性能

基線(xiàn)系統	識別率	98.50％
基線(xiàn)系統	識別時(shí)間（倍實(shí)時(shí)）	1.00
本系統識別率	一階段多候選識別率	99.50％
	二階段第一選識別率	97.50％
	識別時(shí)間（倍實(shí)時(shí)）	0.34
本系統內存空間占用	程序空間	29 KB
本系統內存空間占用	數據空間	94 KB

圖4 非特定人系統第一階段多候選識別率

5 結論

本文提出了一種基于定點(diǎn)DSP的特定人與非特定人語(yǔ)音識別片上系統的實(shí)現方法。通過(guò)降低特征維數，改進(jìn)語(yǔ)音預處理與識別算法等手段，在保證識別性能的前提下，實(shí)現了硬件資源的高效率利用。在運算速度為288 MIPS，工作時(shí)鐘為144 MHz的條件下，特定人與非特定人識別系統識別率分別為98%與97.5％，識別時(shí)間分別為0.13倍實(shí)時(shí)和0.34倍實(shí)時(shí)。

本文的創(chuàng )新點(diǎn)在于：采用基于循環(huán)緩沖技術(shù)的四階段實(shí)時(shí)端點(diǎn)檢測算法，以及基于雙緩沖區的語(yǔ)音傳輸方式，在核心識別算法的處理中，選擇合適的特征維數，合理優(yōu)化識別算法流程，在保證識別性能不受影響的前提下，有效改善了硬件資源占用率與系統實(shí)時(shí)性能。

參考文獻

[1] Zhu Xuan, Chen Yining, Liu Jia, et al. A Novel efficient decoding algorithm for CDHMM-based speech recognizer on chip [A]. Proceeding of ICASSP [C]. Hong Kong: IEEE Press, 2003, 293-296

[2] SPRS244F. TMS320VC5507 Fixed-Point Digital Signal Processor [S]. Texas: Texas Instruments, 2005

[3] MITSUBISHI LSIs M5M29GB/T320VP-80 BLOCK ERASE FLASH MEMORY [S]. 2001

[4] WM8973L Stereo CODEC for Portable Audio Applications [S]. Edinburgh: Wolfson microelectronics, 2004

[5] 朱璇，陳一寧，劉加，劉潤生. 語(yǔ)音識別片上系統中的多級搜索算法[J]. 電子學(xué)報，2004，32（1）：150－153.

[6] 陳立萬(wàn). 基于語(yǔ)音識別系統中DTW算法改進(jìn)技術(shù)研究[J]. 微計算機信息，2006，第5期，267-269

[7] 王瑞. 基于子詞模型的嵌入式語(yǔ)音識別引擎的設計和實(shí)現[D]. 北京：清華大學(xué)，2003

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞：系統 實(shí)現 識別 語(yǔ)音 TMS320VC5507 基于

評論

相關(guān)推薦

基于8051的RFID的考勤系統

嵌入式系統 8051 AVRRFID 系統 | 2023-04-28

One UI 6.1 導致 Galaxy S23 系列手機指紋識別出問(wèn)題

手機與無(wú)線(xiàn)通信 One UI 6.1 Galaxy S23 手機指紋識別 | 2024-04-08

Mark Gurman：蘋(píng)果計劃為未拆封的iPhone新機提供最新系統

手機與無(wú)線(xiàn)通信 Mark Gurman 蘋(píng)果 iPhone 系統 | 2023-10-16

智能電梯控制

視頻信息技術(shù)大賽 kinetis k10 語(yǔ)音感應器 | 2013-01-18

基于RC電路的一次性濾波器

設計方案基于電路一次性濾波器 | 2009-07-06

便攜式有害氣體預警器

視頻信息技術(shù)大賽單片機 STC15F2K60S2 傳感器語(yǔ)音便攜式 | 2013-01-18

《TCP_IP詳解，卷2：實(shí)現》書(shū)1.0

資源下載 TCP IP 詳解實(shí)現 TCP/IP詳解 | 2007-02-28

基于ESP32S3的智能家居控制面板系統設計

202308 ESP32S3 智能家居控制面板 WiFi 語(yǔ)音 | 2023-08-26

Linux系統調度的實(shí)現與應用

Linux 系統 | 2023-08-01

亞馬遜硬件部門(mén)今年或虧損100億美元語(yǔ)音助手成\"無(wú)底洞\"

消費電子亞馬遜硬件語(yǔ)音 | 2022-11-23

模擬電路PWM的實(shí)現

設計方案模擬電路實(shí)現 | 2009-07-06

J2ME潛艇大戰游戲設計與實(shí)現

資源下載 J2ME 潛艇大戰游戲設計實(shí)現 | 2007-02-28

瑞薩推出面向圖形顯示應用和語(yǔ)音/視覺(jué)多模態(tài)AI應用的全新RA8 MCU產(chǎn)品群

嵌入式系統瑞薩圖形顯示應用語(yǔ)音/視覺(jué) 多模態(tài)AI MCU | 2023-12-12

智能型多芯片數碼語(yǔ)音錄放電路

資源下載語(yǔ)音芯片數碼錄放電路 | 2007-12-25

模擬力學(xué)系統的電路

設計方案模擬力學(xué) 系統電路 | 2009-07-06

40個(gè)簡(jiǎn)單但有效的LinuxShell腳本示例

Linux Shell 腳本示例 Unix 系統 | 2023-08-15

大家在互相借鑒吧!--嵌入式系統詞匯表

jackwang | 2002-05-14

API840N 40秒多功能可編程語(yǔ)音電路

資源下載語(yǔ)音語(yǔ)音電路 API840N 40秒 | 2007-12-25

嵌入式操作系統大比拼

jackwang | 2002-05-13

基于MSP430F133的電子鎮流器綜合測試儀

設計方案基于 MSP430F133 電子鎮流器綜合測試儀 | 2009-07-06

大家在互相借鑒吧!--嵌入式系統詞匯表

jackwang | 2002-05-14

Upgrading a bsp for tornado2.2

資源下載 Tornado VxWorks 系統通訊軟件包 C C++ | 2007-02-09

系統線(xiàn)性的兩個(gè)條件

系統線(xiàn)性 | 2023-03-21

1 科大訊飛語(yǔ)音服務(wù)概述

視頻科大訊飛 Android 語(yǔ)音 | 2015-07-07

大家在互相借鑒吧!--嵌入式系統詞匯表

jackwang | 2002-05-14

基于運放的差動(dòng)放大器

設計方案基于運放差動(dòng) 放大器 | 2009-07-06

蘋(píng)果 iOS 18 / macOS 15 預計升級設置應用：重整布局、簡(jiǎn)化導航、增強搜索

手機與無(wú)線(xiàn)通信蘋(píng)果 iOS 18 系統 | 2024-06-03

多路語(yǔ)音同傳系統

視頻信息技術(shù)大賽 FPGA EP1C3T100C8N 語(yǔ)音 | 2013-01-16

2 語(yǔ)音云開(kāi)放平臺介紹

視頻科大訊飛 Android 語(yǔ)音 | 2015-07-07

大家在互相借鑒吧!--嵌入式系統詞匯表

jackwang | 2002-05-14

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>