基于PCANN的說(shuō)話(huà)人識別方法研究
1引言
本文引用地址:http://dyxdggzs.com/article/198973.htm說(shuō)話(huà)人識別是根據從說(shuō)話(huà)人所發(fā)語(yǔ)音中提取信息判斷說(shuō)話(huà)人身份的過(guò)程。語(yǔ)音信號中包含了話(huà)音特征和說(shuō)話(huà)人個(gè)性特征,說(shuō)話(huà)人識別的關(guān)鍵問(wèn)題之一是提取反映說(shuō)話(huà)人個(gè)性的語(yǔ)音特征參數。在說(shuō)話(huà)人識別系統中常用的語(yǔ)音特征參數主要有,LPC 倒譜系數(LPCC) 、Mel 頻率倒譜系數(MFCC)、線(xiàn)譜對(LSP)等 。在純凈語(yǔ)音環(huán)境中,系統已經(jīng)達到很好的識別性能,但是在實(shí)際應用的環(huán)境中,由于背景噪聲的存在,系統往往達不到令人滿(mǎn)意的效果。
主分量分析PCA (primary component analyze)是統計學(xué)中一種根據數據的統計分布特性,提取數據主要成分的數據處理方法. 它是最小均方誤差下的最優(yōu)正交變換,對消除模式間的相關(guān)性、突出模式間差異性有最佳的效果,所以常被用于數據的壓縮和模式識別的特征提取 . 由于它需要對原始數據的方差矩陣進(jìn)行估值并求取其特征值和特征向量, 計算量異常巨大, 而基于神經(jīng)網(wǎng)絡(luò )的主分量分析算法不必進(jìn)行矩陣求逆運算,并且神經(jīng)網(wǎng)絡(luò )具有并行運算能力, 這將降低PCA 計算量, 提高PCA 的實(shí)用性 。對語(yǔ)音信號的原始特征作主分量分析后往往能得到更好的特征參數 。本文選用LPC倒譜系數作為表征聲道的特征參數,采用相繼的幾幀組成的特征參數矢量作為樣本,對其進(jìn)行主分量分析,這樣去除了特征中的冗余信息,壓縮特征參數的維數,得到新的PCA特征參數,然后把PCA特征參數作為GMM模型的輸入向量,進(jìn)行說(shuō)話(huà)人識別的訓練和識別。
本文第二節介紹主分量分析神經(jīng)網(wǎng)絡(luò )的原理和算法,第三節介紹高斯混和模型和LPCC特征參數,第四節給出相應的說(shuō)話(huà)人識別系統實(shí)驗和結果,最后是簡(jiǎn)要的討論與展望。
2主分量神經(jīng)網(wǎng)絡(luò )(PCANN)
主分量神經(jīng)網(wǎng)絡(luò )是基于Hebb 學(xué)習規則的線(xiàn)性無(wú)監督學(xué)習神經(jīng)網(wǎng)絡(luò ), 它可以通過(guò)對權矩陣W 的學(xué)習, 使W接近于原始數據X的關(guān)聯(lián)矩陣C中特征值所對應的特征向量, 而不必進(jìn)行矩陣求逆運算,提高了運算速度。
2.1 基于Hebb學(xué)習的最大特征濾波器
2.2 基于Hebb 學(xué)習的主分量分析網(wǎng)絡(luò )
圖3:提取前m個(gè)主分量的神經(jīng)網(wǎng)絡(luò )解析圖
3識別系統特征參數以及模型
3.1 語(yǔ)音的主分量特征參數(PCA特征)
本文選用線(xiàn)性預測倒譜系數(LPCC)作為語(yǔ)音的原始特征參數然后對其進(jìn)行主分量分析。LPCC系數是一種非常重要的特征參數。它的主要優(yōu)點(diǎn)是比較徹底地去掉了語(yǔ)音產(chǎn)生過(guò)程中的激勵信息,主要反映聲道相應,而且往往只要十幾個(gè)倒譜系數就能較好地描述語(yǔ)音信號的共振峰特性,因此在識別中取得了較好的效果。在實(shí)際計算中,LPCC參數不是由信號直接得到的,而是由LPC系數得到的。關(guān)系式如下:
(8)
這里 實(shí)際上是直流分量,反映頻譜能量,其值的大小不影響譜形,在識別中通常不用,也不去計算。當LPCC系數個(gè)數不大于LPC系數個(gè)數時(shí)用第二式,當LPCC系數個(gè)數大于LPC系數個(gè)數時(shí),用第三式進(jìn)行計算。
4實(shí)驗及結果分析
本文實(shí)現了一個(gè)在噪聲環(huán)境下與文本無(wú)關(guān)的說(shuō)話(huà)人自動(dòng)識別系統。使用的是一個(gè)含20人的語(yǔ)音數據庫,包括10名男性和10名女性,每人語(yǔ)音長(cháng)度約90秒。采樣率為12kHz,采用16bit量化。
首先對數據進(jìn)行預處理,包括端點(diǎn)檢測、預加重(H(z)=1-0.95 )和加窗(Hamming窗,幀長(cháng)20ms,幀移10ms)。原始特征選為12階的LPCC倒譜參數,主分量特征個(gè)數選12階。高斯模型混合數M=16。訓練音長(cháng)為40s,測試音為3s。實(shí)驗結果如表(1):
表1 實(shí)驗結果(%)
圖(4)是根據表(1)中的數據畫(huà)出的曲線(xiàn)。
從表(1)可以看出,與傳統的GMM方法相比,PCANN_GMM方法明顯增強系統抗噪聲能力,改進(jìn)了識別效果。并且在PCANN_GMM中,幀數不同對識別也有較小的影響,當幀數大于5幀時(shí),系統的識別性能不再提高。
5總結
本文運用PCANN/GMM方法進(jìn)行說(shuō)話(huà)人識別,將多幀特征參數合并為一幀,利用了幀間相關(guān)性,對其進(jìn)行主分量分析,減少了冗余度,提高了系統的魯棒性。另外,當前的說(shuō)話(huà)人識別研究還主要集中在聲學(xué)特征層次進(jìn)行,基于人們說(shuō)話(huà)中含有的高級特征所進(jìn)行的研究雖然很多,下一步的工作將結合聲學(xué)特征和高級特征,研究它們之間的關(guān)系,從而進(jìn)一步提高說(shuō)話(huà)人識別系統的性能。
參考文獻
[1] 趙力. 語(yǔ)音信號處理 北京:機械工業(yè)出版社,2003
[2] E.Oja. “A Simplified Neural Model as a Principal Components Analyzer”,Journal of Mathematic Biology,VOL.19,pp.267-273,1982
[3] Sanger T D. “Optimal Unsupervised Learing In a Singer Layer Linear Feedforward Neural Network”,Neural Networks, pp459-473, 1989
[4] 何振亞 顧明亮 語(yǔ)音信號的主分量特征 應用科學(xué)學(xué)報, VOL 17,NO.4,1999
[5] Simon Haykin. 神經(jīng)網(wǎng)絡(luò )原理. 北京:機械工業(yè)出版社, 2004
[6] Chanchal Chatterjee. and Vwani P.Roychowdhury. “On Relative Convergence Properties of Principal Component Analysis Algorithms”,IEEE Transactions On Neural Networks, VOL.9,NO.2,March 1998
[7] Oh-Wook Kwon. and Kwokleung Chan. “Speech Feather Analysis Using Variational Bayesian PCA”,IEEE Signal Processing Letters,VOL.10,NO.5,May 2003
評論