基于聽(tīng)覺(jué)特性的聲紋識別系統的研究
聲紋識別技術(shù)(說(shuō)話(huà)人識別技術(shù))是一種生物認證技術(shù),也是一項根據說(shuō)話(huà)人波形反映其生理和行為特征的語(yǔ)音參數來(lái)自動(dòng)識別測試的說(shuō)話(huà)人身份的技術(shù)。
本文引用地址:http://dyxdggzs.com/article/201609/303780.htm在未來(lái)的生活中,說(shuō)話(huà)人識別將會(huì )以它自身獨特的便捷性,實(shí)惠性和精準性受人矚目,并且逐漸普及在生物認證技術(shù)領(lǐng)域。
說(shuō)話(huà)人識別首要錄制聲音樣本和提取語(yǔ)音特征參數,再把它們保存在數據庫中,最后把準備驗證的聲音和數據庫中的語(yǔ)音特征相匹配,利用匹配結果相似度來(lái)獲得說(shuō)話(huà)人的身份。
1 常用語(yǔ)音庫
目前,世界各國都很重視建設語(yǔ)音數據庫。最具代表的是美國建立的LDC(Linguistic Data Consortium)和OGI(Oregon Graduate Inst itute),以及歐洲國家建立的ELRA(European Language Resollces Association)組織。這些組織都是長(cháng)期研究語(yǔ)音信號處理技術(shù)的。他們開(kāi)發(fā)出規模巨大的語(yǔ)音研究資源。
第一個(gè)高質(zhì)、大容量、高可信度的聲音數據庫是YOHO數據庫。表1是YOHO說(shuō)話(huà)人數據庫。它是經(jīng)過(guò)數字化的數據庫,其輸入特征參照了第三代安全終端單位(STU—III)的安全語(yǔ)音電話(huà)。設計了與文本有關(guān)的說(shuō)話(huà)人確認系統,此系統是會(huì )提示用戶(hù)說(shuō)什么話(huà),在YOHO中使用的是:“合成塊”短語(yǔ)的語(yǔ)法。
這個(gè)數據庫的環(huán)境是“辦公環(huán)境”。另一方面,它還滿(mǎn)足在噪聲的環(huán)境和遠距離麥克風(fēng)的條件下對語(yǔ)音做測試。而這些均滿(mǎn)足了消費者的消費需要。
國內,浙江大學(xué)CCNT實(shí)驗室提出和建立了面向移動(dòng)通信環(huán)境的說(shuō)話(huà)人識別語(yǔ)音庫SRMC(speaker recognition in mobile communicatio n)。
生活中,如果要采集語(yǔ)音的話(huà),就會(huì )常常使用計算機,麥克風(fēng),還有錄音功能電話(huà)機,此外還要有相應的調制解調器。這些錄音設備都很普通且常見(jiàn)。
我們該怎樣去評價(jià)和使用一個(gè)標準的語(yǔ)音數據庫?我們需要對評價(jià)下個(gè)定義。如評價(jià)的細節、訓練和測試數據集的分割。在特定條件(如訓練和測試采用不同的麥克風(fēng))下進(jìn)行系統性能評價(jià),需要有足夠的錄音數據。

2 聲紋識別系統
2.1 實(shí)驗設計
由于實(shí)驗條件的限制,本課題的語(yǔ)音庫是自己創(chuàng )建的,實(shí)驗用來(lái)訓練和測試的說(shuō)話(huà)人錄音,大部分是班級同學(xué)和同一實(shí)驗室的同學(xué)。在這個(gè)實(shí)驗中我們使用的是普通話(huà),我們中每一個(gè)人說(shuō)話(huà)速度和音量都處于正常情況。實(shí)驗語(yǔ)音是在兩天時(shí)間內采集得到的。采集環(huán)境是實(shí)驗室,一共有十個(gè)同學(xué)進(jìn)行錄音。男女比例是一比一。在本實(shí)驗中,我們盡量保持實(shí)驗室環(huán)境安靜,假設我們采集的聲音都是純音,沒(méi)有噪音。實(shí)驗中用到的錄音軟件是cool edit 2000,用的錄音設備是普通的立體聲麥克風(fēng)和COMPAQ筆記本電腦,我們把采樣頻率定為8000Hz,每一幀的幀長(cháng)定為256個(gè)點(diǎn),幀之間的距離定為80點(diǎn),用16比特量化方式進(jìn)行量化。采樣之后,得到了標準化的數字語(yǔ)音,這個(gè)實(shí)驗中,用到的語(yǔ)料是阿拉伯數字。包含之間的數字,每個(gè)人的語(yǔ)音是1個(gè)阿拉伯數字,每個(gè)人每一天要有9次朗讀機會(huì )。我們把獲得的所有的數據樣本存儲在計算機的硬盤(pán)中,拿出第一天的語(yǔ)音來(lái)進(jìn)行訓練使用,把第二天的語(yǔ)音用來(lái)做測試。每一個(gè)數字錄音看做一個(gè)單位來(lái)進(jìn)行測試。本文的實(shí)驗中利用阿拉伯數字1~9的語(yǔ)音單元構成的隱馬爾可夫模型。建市了與文本有關(guān)的身份確認系統。如圖1所示。

首先錄制語(yǔ)音,采集語(yǔ)音,建立語(yǔ)音模板庫,在實(shí)驗室環(huán)境下,采集參加訓練和識別的說(shuō)話(huà)人語(yǔ)音。分別建立兩個(gè)數據庫。第一天錄音存儲為Xi,第二天錄音存儲為Ri。分別存儲在計算機的硬盤(pán)中的錄音DIY資料文件夾下。語(yǔ)音庫是用來(lái)存儲說(shuō)話(huà)人的語(yǔ)音。當需要識別時(shí)可以用來(lái)識別說(shuō)話(huà)人身份。隨后將語(yǔ)音送至預處理功能模塊。
其次對數字化語(yǔ)音進(jìn)行預處理,此模塊的任務(wù)語(yǔ)音信號的數字化處理,把處理過(guò)的語(yǔ)音拿來(lái)端點(diǎn)檢測。預處理過(guò)程包含去除語(yǔ)音信號的噪聲、對信號進(jìn)行預加重、加窗、分幀等。經(jīng)過(guò)加窗這一步驟之后,得到了一幀幀的語(yǔ)音序列,然后進(jìn)行預加重處理。把信號做預加重處理是為了把信號中的高頻部分提取出來(lái),這樣做整個(gè)頻譜就會(huì )變得平坦起來(lái),然后在全部的頻帶中一直保持這種平坦,這個(gè)時(shí)候我們可以用相同的信噪比求得頻譜。這樣都完成之后就可以頻譜分析了。預加重濾波器的形式如:
H(z)=1-μz-1 (1)
式(1)中,μ的值在本實(shí)驗中選取0.937 5。引進(jìn)了預加重參數μ,可以看出,有利于提高說(shuō)話(huà)人的識別率。表2中可以看到不同預加重參數下的識別率。

由表2可知,μ值改變,識別率也在改變。μ=0.95時(shí),識別率最高。本實(shí)驗選取的預加重參數值在0.93~0.95之間。
接下來(lái)是對語(yǔ)音信號分幀加窗。因為語(yǔ)音信號不是平穩的信號,假定語(yǔ)音信號在10~30 ms之間是平穩的。為了得到短時(shí)的語(yǔ)音信號,對語(yǔ)音信號進(jìn)行加窗計算。本課題主要選用的是漢明窗。漢明窗顯示了一個(gè)好的窗口的優(yōu)點(diǎn)。其在時(shí)域中波形細節不容易丟失,且能防止泄露。漢明窗函數式:

經(jīng)過(guò)前面的一些處理之后,采集的語(yǔ)音信號就被分割成一幀幀的短時(shí)的加窗信號,把這些信號假設成隨機平穩的信號,然后提取語(yǔ)音特征參數。
提取出來(lái)的語(yǔ)音參數,對其端點(diǎn)檢測。此時(shí),先設置門(mén)限,依據短時(shí)能量和過(guò)零率的公式,求出來(lái)短時(shí)能量值和過(guò)零率值。然后用手工方法在MATLAB上去除語(yǔ)音信號中的靜音段和噪音語(yǔ)段來(lái)進(jìn)行端點(diǎn)檢測。
對系統的輸入信號進(jìn)行判斷,準確地找到語(yǔ)音信號的起始點(diǎn)和終止點(diǎn)的位置。除去語(yǔ)音中的雜亂語(yǔ)音段,只有這樣才能采集到真正的語(yǔ)音數據,減少數據冗余和運算量,并減少處理時(shí)間。如表3所示。在這里本課題用的是雙門(mén)限法。將短時(shí)平均能量和短時(shí)平均過(guò)零率結合起來(lái),進(jìn)行端點(diǎn)檢測,可以很好的檢測語(yǔ)音是否開(kāi)始和結束。
評論