基于A(yíng)RM的非特定人語(yǔ)音識別系統設計

本文引用地址:http://dyxdggzs.com/article/247359.htm
2.3 語(yǔ)音合成單元設計
TTS(Text To Speech)文本轉語(yǔ)音技術(shù)是人機智能對話(huà)發(fā)展的趨勢?;赥TS技術(shù)的語(yǔ)音系統無(wú)需事先錄音就能夠隨時(shí)根據查詢(xún)條件查出并合成語(yǔ)音進(jìn)行播報,從而大大減少了系統維護的工作量。利用此技術(shù),通過(guò)MCU或者PC機就能控制語(yǔ)音芯片發(fā)音[4].
本文采用SYN6658中文語(yǔ)音合成芯片進(jìn)行語(yǔ)音合成。SYN6658 通過(guò)UART 接口或SPI接口通信方式,接收待合成的文本數據,實(shí)現文本到語(yǔ)音(或TTS語(yǔ)音)的轉換[6].控制器和SYN6658 語(yǔ)音合成芯片之間通過(guò)UART接口連接,控制器通過(guò)串口通信向SYN6658語(yǔ)音合成芯片發(fā)送控制命令和文本,SYN6658語(yǔ)音合成芯片把接收到的文本合成為語(yǔ)音信號輸出,輸出的信號經(jīng)LM386 功率放大器進(jìn)行放大后連接到喇叭進(jìn)行播放。如圖6所示。

SYN6658語(yǔ)音合成電路采用芯片硬件數據手冊提供的典型應用電路進(jìn)行設計[5],在此不做介紹,功率放大電路采用美國國家半導體生產(chǎn)的音頻功率放大器LM386進(jìn)行放大。
在進(jìn)行語(yǔ)音合成時(shí)首先進(jìn)行初始化,包括發(fā)音人選擇、數字處理策略、語(yǔ)速調節、語(yǔ)調調節、音量調節等。
由于該系統要模擬多人發(fā)音,所以不同的從設備設置不同的發(fā)音人及語(yǔ)調與語(yǔ)速以便于區分。初始化后等待測控計算機的語(yǔ)音合成命令,待收到命令后芯片會(huì )向上位機發(fā)送1字節的狀態(tài)回傳,上位機可根據這個(gè)回傳來(lái)判斷芯片目前的工作狀態(tài)。語(yǔ)音合成流程圖如圖7所示。

3 系統軟件設計
示教與回放系統的軟件設計包括測控計算機的軟件設計和各從設備Arduino mega260控制器的軟件設計。
測控計算機是整個(gè)系統的控制核心,其軟件采用C#進(jìn)行編寫(xiě),在示教與回放系統中主要是對操作數據的記錄以便根據所記錄的數據對操作過(guò)程進(jìn)行精確回放,需要記錄的數據包括:各從設備操作人員的操作口令,操作動(dòng)作,口令及動(dòng)作時(shí)間,各操作對應的操作現象。為簡(jiǎn)化記錄數據,事先編制好各事件代碼,記錄過(guò)程只記錄代碼,大大提高程序效率。建立結構體如下:

在操作訓練過(guò)程中測控計算機每隔50 ms 對下位機進(jìn)行控制及輪詢(xún),并記錄反饋數據,在數據記錄時(shí)以50 ms 為一個(gè)單位。采用定時(shí)器對時(shí)間進(jìn)行控制。在回放過(guò)程中首先比對當前時(shí)間和所記錄的時(shí)間,當所記錄的時(shí)間與當前時(shí)間吻合時(shí)測控計算機控制下位機執行該事件,完成事件回放。
Arduino mega2560控制器負責接收測控計算機的控制指令并執行指令,讀取語(yǔ)音識別結果,對聲強數據采集和處理,控制語(yǔ)音合成單元進(jìn)行語(yǔ)音合成等。Arduinomega2560 控制器采用串口中斷的方式進(jìn)行命令接收。
只有正確接收到命令才會(huì )執行并回傳結果,若測控計算機在限定時(shí)間內未收到回傳結果則表明發(fā)生錯誤,測控計算機需重新發(fā)送。數據接收流程圖如圖8所示。

4 總結
本文利用智能語(yǔ)音芯片設計了某模擬訓練器的示教與回放系統,該系統不需要現在流行的虛擬現實(shí)技術(shù)的支持,僅在MCU的控制下就可以運行。該系統也可以在小型的便攜式設備上實(shí)現,具有良好的應用前景。
手機電池相關(guān)文章:手機電池修復
聲控燈相關(guān)文章:聲控燈原理
評論