語(yǔ)意識別與智能機器人設計
摘要:語(yǔ)音識別技術(shù)在智能設計方面的應用廣泛。AP7003型IC是一款性能優(yōu)良和價(jià)格低廉的語(yǔ)音識別電路,文中介紹它的基本電路及其在機器人設計中的一些應用友及主意識別系統的基本原理,為智能機器人的設計提供了一種思路。
關(guān)鍵詞:AP7003 語(yǔ)音識別 智能機器人 目標詞
語(yǔ)音識別技術(shù)以語(yǔ)言為研究對象,涉及生理學(xué)、語(yǔ)言學(xué)、計算機及信號處理等多個(gè)領(lǐng)域,是語(yǔ)言信號處理的一個(gè)重要研究方向,在智能控制、多媒體、人機對話(huà)等方面有著(zhù)極其廣泛的應用前景。
1 語(yǔ)音識別技術(shù)
語(yǔ)音識別技術(shù)首先要提取語(yǔ)音特征參量,也就是從語(yǔ)言信號中提取語(yǔ)音識別的有用信息。語(yǔ)音特征參量的提取要考慮單詞選定位置的基音、鼻輔音的頻譜、元音的頻譜、擦音的頻譜等要素。語(yǔ)音識別技術(shù)也必須有模式匹配及模型訓練技術(shù),其中主要包括動(dòng)態(tài)時(shí)間規整技術(shù)、HMM模型和人工神經(jīng)網(wǎng)絡(luò )。時(shí)間規整是把一個(gè)單詞內的時(shí)變特征變?yōu)橐恢碌倪^(guò)程,在時(shí)間規整過(guò)程中,作為單詞的時(shí)間軸要不均勻的扭曲或彎曲,使其行征為模型特征對正,該技術(shù)是一種有力的矯正措施,對提高系統的識別精度極為有效。人工神經(jīng)網(wǎng)絡(luò )是一個(gè)自適應非線(xiàn)性動(dòng)力學(xué)系統,模擬人體大腦活動(dòng)的基本原理,具有學(xué)習、技藝、判斷、對比和概括等能力。另外,語(yǔ)音識別單元的選取也是語(yǔ)音識別的重要一步,語(yǔ)言識別單元有單詞、音節和音素。對于漢語(yǔ)而言,主要選取音節單元,因為漢語(yǔ)是單音節結構的語(yǔ)言,而英語(yǔ)是多音節的語(yǔ)言,漢語(yǔ)約有400個(gè)音節,數量相對較少,便于識別。
2 AP7003型語(yǔ)音識別電路
AP7003是一款低成本語(yǔ)音識別專(zhuān)用集成電路,內置麥克風(fēng)放大器、A/D轉換器、語(yǔ)音處理器和I/O控制器,經(jīng)預處理后可識別12組不同的字詞,每組1.5s時(shí)長(cháng),可連詞或單詞識別??蓮V泛應用于玩具、識別轉控和自動(dòng)答錄等領(lǐng)域。
AP7003的功能框圖如圖1所示。表1給出AP7003的引腳功能。
表1 AP7003的引腳功能
引腳名稱(chēng) | 功 能 |
GNDD | 數字地 |
LED1 | 低電平存放LED驅動(dòng)腳,能設計成語(yǔ)音輸入指示,適合于標準應用 |
DLED2 | 低電平存放LED驅動(dòng)腳,在標準應用線(xiàn)路中設計成語(yǔ)音輸入驗證結果的標志 |
DPOB1-POB4 | 輸出口,作為鍵盤(pán)掃描用,標準應用 |
DPIT1-PIT4 | 低電平有效輸入口,內部有上拉電阻器,能設計成輸入口或鍵盤(pán)的輸入標準應用 |
DVDDD | 數字電源VDD |
DCAPV | 去耦電容器,電容器必須接在此引腳到地之間,用于內部的電壓基準 |
DOSCI | 頻率振蕩器控制腳,接一個(gè)56k電阻器到地 |
DPIM1PIM2 | 普通輸入腳,能設計成模式控制輸入,用于標準電路 |
DTEST | 測試引腳,用于生產(chǎn)測試 |
DPOSL | 輸出模式選擇,用于輸出A口,若ProtA是高電平有效,則以POSL接高電平;若低電平有效則接地 |
GNDA | 模擬地 |
TREF | 語(yǔ)音輸入閥電壓控制 |
A2OUT | 輸出第二放大器 |
AIIN | 第一(前級)放大器反相輸入 |
A1OUT | 前級放大輸出 |
MICP | 麥克風(fēng)的正電源腳 |
VDDA | 模擬電路正電源 |
POA-POA12 | 輸出口 |
PORES | 高電平有效輸入,清除輸出口A(yíng)狀態(tài) |
AP7003的主要特征如下:
內置麥克風(fēng)放大器
內置A/D轉換器
采用DIP40雙列直插式封裝
能識別12組1.5s時(shí)長(cháng)字詞
I/O:2個(gè)普通輸入,4個(gè)觸發(fā)輸入,2個(gè)輸出口分別有4個(gè)、12個(gè)輸出,2個(gè)LED驅動(dòng)
AP7003具有二種工作模式,即錄音模式和識別模式,在進(jìn)入識別模式之前,應先將目標詞錄入電路內。在A(yíng)P7003內有12個(gè)存貯體用于存貯12組不同的字句,每個(gè)存貯體可存貯1.5s時(shí)長(cháng)的字句,可通過(guò)鍵盤(pán)或按程序編制的順序選擇存貯體來(lái)錄入及存放目標詞。語(yǔ)音可通過(guò)外部麥克風(fēng)或其他媒體錄入電路內,經(jīng)內部處理后以不同的數字特征信號保存在存貯體中。
圖2
目標詞錄入電路內后即可將工作模式轉換到識別模式,工作時(shí)電路將當前語(yǔ)音與事先錄入存貯體的目標詞語(yǔ)音相比較,如果語(yǔ)音特征相匹配,則在電路的相應輸出端輸出高電平或低電平。
3 聲控機器人設計
語(yǔ)音識別電路廣泛應用在智能控制中,把這種電路應用在智能機器人設計中,使機器人初步具有與人對話(huà)的能力,且機器人的操作具有普遍性,極大地提高了操作者的興趣,圖2是機器人電路的主要原理框圖。
圖2中按鍵的定義如表2所示。上電后12個(gè)存貯器在錄入目標詞之前必須清空,開(kāi)始錄入目標詞時(shí)使LED1有效,錄入后電路將進(jìn)入識別模式。
表2 按鍵的定義
Key NO. | 12Key (PIM1=1) |
1 | Store Word1 |
2 | Store Word2 |
3 | Stroe Word3 |
4 | Store Word4 |
5 | Store Word5 |
6 | Store Word6 |
7 | Sotre Word7 |
8 | Store Word8 |
9 | Set R_Leve1 |
10 | Set Level2 |
11 | Clear Output |
12 | Shut Down |
PIT4 | Clesr Word |
如果由麥克風(fēng)錄入的單詞與存儲器原有單詞相匹配,對應的POA輸出口有效,并驅動(dòng)斷電器器,電機運動(dòng)。在本設計中,機器人主要有“前進(jìn)”(J1)、“后退”(J2)、“左轉”(J3)、“右轉”(J4)、“舉起”(J5)、“放下”(J6)、“停止”等幾種動(dòng)作。其中,“停止”定義為clearOutput,其他依次定義為POA3、POA4、POA5、POA6、POA7和POA8。以“前進(jìn)”(J1)和“后退”(J2)為例,如圖3所示。
當“停止”時(shí),清除POA所有狀態(tài),機器人停止。
當然,語(yǔ)音識別電路對外部麥克風(fēng)(MIC)的分貝值有一定的要求,經(jīng)驗表明在本語(yǔ)音識別電路中選用56dB的麥克風(fēng)較好。另外,AP7003的工作電壓為2.4~4.5V,如果您的應用系統是5V工作電壓,那么,通過(guò)一個(gè)二極管給AP7003供電,可以保證系統能長(cháng)期穩定、可靠的工作,也有利于降低系統功耗。
4 結束語(yǔ)
在實(shí)際應用的過(guò)程中,麥克風(fēng)的分貝值、Set R_Level匹配度的設置對于語(yǔ)音識別的效果影響較大。如果這二個(gè)參數設置合理,該電路可具有較高的識別率,一般可達80%以上,不失為一種效好的語(yǔ)音識別電路。
評論