基于A(yíng)RM處理器的非特定人語(yǔ)音識別系統設計
0 引言
本文引用地址:http://dyxdggzs.com/article/201609/303639.htm隨著(zhù)高新技術(shù)在軍事領(lǐng)域的廣泛運用,武器裝備逐步向高、精、尖方向發(fā)展。傳統的軍事訓練由于訓練時(shí)間長(cháng)、訓練費用高、訓練空間窄,常常不能達到預期的訓練效果,已不能滿(mǎn)足現代軍事訓練的需要。為解決上述問(wèn)題,模擬訓練應運而生。
為進(jìn)一步提高訓練效果,本文利用智能語(yǔ)音交互芯片設計了某模擬訓練器的示教與回放系統。示教系統為操作人員生動(dòng)的演示標準操作流程及相應的操作現象,極大地縮短了對操作人員的培訓時(shí)間,提高了培訓效果?;胤畔到y通過(guò)記錄操作訓練過(guò)程中各操作人員的口令、聲音強度、動(dòng)作、時(shí)間、操作現象等,待操作訓練結束后通過(guò)重演訓練過(guò)程,以便操作者及時(shí)糾正自己的問(wèn)題。示教系統也可理解為對標準操作訓練過(guò)程的回放。該系統不需要虛擬現實(shí)技術(shù)的支持,在小型的嵌入式系統上就可以實(shí)現。
1 系統原理
該模擬訓練器由一臺測控計算機和多臺從設備組成。如圖1所示。在此僅對一臺從設備進(jìn)行介紹,其硬件系統主要由測控計算機、Arduino mega2560 控制器、語(yǔ)音識別單元、聲強檢測單元、語(yǔ)音合成單元、面板控制單元、儀器面板等組成。面板控制單元較為復雜,包含多種控制電路,在模擬訓練中負責該從設備在A(yíng)rduino mega2560 控制器的控制下完成整個(gè)訓練過(guò)程,在示教與回放系統中完成對剛才操作訓練操作現象的重演,其具體電路設計在此不做介紹。

語(yǔ)音識別單元負責識別操作人員的操作口令;聲強檢測單元負責檢測聲強大小并以此作為判斷是哪臺從設備操作人員口令的依據;Arduino mega2560控制器負責監視儀器面板各元件的狀態(tài)來(lái)識別操作人員的動(dòng)作,從而完成對操作訓練過(guò)程的記錄。各儀器的操作現象根據操作動(dòng)作事先編制無(wú)需記錄。在操作回放過(guò)程中,測控計算機根據所記錄的數據,通過(guò)控制相應從設備的Arduino mega2560控制器重現所記錄的操作過(guò)程。
2 單元系統設計
2.1 語(yǔ)音識別單元設計
目前,語(yǔ)音識別技術(shù)的發(fā)展十分迅速,按照識別對象的類(lèi)型可以分為特定人和非特定人語(yǔ)音識別。特定人是指識別對象為專(zhuān)門(mén)的人,非特定人是指識別對象是針對大多數用戶(hù),一般需要采集多個(gè)人的語(yǔ)音進(jìn)行錄音和訓練,經(jīng)過(guò)學(xué)習,從而達到較高的識別率。
本文采用的LD3320語(yǔ)音識別芯片是一顆基于非特定人語(yǔ)音識別(Speaker Independent Automatic SpeechRecognition,SI ASR)技術(shù)的芯片。該芯片上集成了高精度的A/D 和D/A 接口,不再需要外接輔助的FLASH 和RAM,即可以實(shí)現語(yǔ)音識別、聲控、人機對話(huà)功能,提供了真正的單芯片語(yǔ)音識別解決方案。并且,識別的關(guān)鍵詞語(yǔ)列表是可以動(dòng)態(tài)編輯的。其語(yǔ)音識別過(guò)程如圖2所示。

語(yǔ)音識別單元采用ATmega168 作為MCU,負責控制LD3320完成所有和語(yǔ)音識別相關(guān)的工作,并將識別結果通過(guò)串口上傳至Arduino mega2560 控制器。對LD3320芯片的各種操作,都必須通過(guò)寄存器的操作來(lái)完成,寄存器讀寫(xiě)操作有2種方式(標準并行方式和串行SPI方式)。在此采用并行方式,將LD3320的數據端口與MCU的I/O口相連。其硬件連接圖如圖3所示。

語(yǔ)音識別流程采用中斷方式工作,其工作流程分為初始化、寫(xiě)入關(guān)鍵詞、開(kāi)始識別和響應中斷等。MCU的程序采用ARDUINO IDE編寫(xiě)[5],調試完成后通過(guò)串口進(jìn)行燒錄,控制LD3320完成語(yǔ)音識別,并將識別結果上傳至Arduino mega2560控制器。其軟件流程如圖4所示。

2.2 聲強檢測單元設計
在進(jìn)行語(yǔ)音識別時(shí)需要判斷是某一臺從設備操作人員的口令,為此設計聲強檢測單元電路,該電路僅需能夠判斷出相對聲強的大小,無(wú)需檢測聲級,對檢測精度要求較低。
電容式MIC聲音傳感器將外部聲音信號轉換成電信號,經(jīng)NE5532放大電路進(jìn)行放大,將輸入的微弱音頻信號轉換為具有一定幅值的電壓信號,該電壓信號經(jīng)AC/DC有效值轉換電路進(jìn)行裝換后進(jìn)行再次放大,最終由Arduino mega2560控制器的A/D進(jìn)行采樣。圖5給出了聲強檢測單元的電路原理圖,其中D1 端接Arduinomega2560控制器的A/D,INT1端接Arduino mega2560控制器的外部中斷1.當外界聲音信號大于預設的閾值時(shí),三極管導通INT1端由高電平變?yōu)榈碗娖疆a(chǎn)生外部中斷,控制器響應中斷并進(jìn)行 A/D 采樣,采樣數據經(jīng)均值濾波后保存,待測控計算機查詢(xún)時(shí)上傳該聲強數據。

2.3 語(yǔ)音合成單元設計
TTS(Text To Speech)文本轉語(yǔ)音技術(shù)是人機智能對話(huà)發(fā)展的趨勢?;赥TS技術(shù)的語(yǔ)音系統無(wú)需事先錄音就能夠隨時(shí)根據查詢(xún)條件查出并合成語(yǔ)音進(jìn)行播報,從而大大減少了系統維護的工作量。利用此技術(shù),通過(guò)MCU或者PC機就能控制語(yǔ)音芯片發(fā)音[4]。
本文采用SYN6658中文語(yǔ)音合成芯片進(jìn)行語(yǔ)音合成。SYN6658 通過(guò)UART 接口或SPI接口通信方式,接收待合成的文本數據,實(shí)現文本到語(yǔ)音(或TTS語(yǔ)音)的轉換[6]??刂破骱?a class="contentlabel" href="http://dyxdggzs.com/news/listbylabel/label/SYN6658">SYN6658 語(yǔ)音合成芯片之間通過(guò)UART接口連接,控制器通過(guò)串口通信向SYN6658語(yǔ)音合成芯片發(fā)送控制命令和文本,SYN6658語(yǔ)音合成芯片把接收到的文本合成為語(yǔ)音信號輸出,輸出的信號經(jīng)LM386 功率放大器進(jìn)行放大后連接到喇叭進(jìn)行播放。如圖6所示。

評論