基于DSP嵌入式說(shuō)話(huà)人識別系統的設計
2.4 算法實(shí)現過(guò)程中的具體考慮.
(1)FFT變換點(diǎn)數的選擇。FFT變換點(diǎn)數選擇很重要,如果選擇太大,則運算復雜度變大,使系統響應時(shí)間變長(cháng),如果選擇太小則可能造成頻率分辨率過(guò)低,提取參數誤差過(guò)大。該系統中選取的點(diǎn)數為240點(diǎn)。
(2)模型參數的選擇。首先模型階數M必須適中,必須足夠大,可以充分表示出空間的分布。然而,階數也不能太大,否則數據數量不足,也無(wú)法準確描述特征空間分布??紤]該系統對參數的存儲空間要求,并綜合以上考慮,該系統選用的階數為32階。
(3)協(xié)方差矩陣類(lèi)型??紤]到減少計算量,這里采用對角陣。在高維特征空間中,對角陣比全矩陣優(yōu)勢更為明顯。
(4)方差限定。當訓練數據不足或者是存在噪聲干擾時(shí),方差幅度會(huì )很小,這樣會(huì )導致模型概率函數的奇異性,所以每次EM迭代時(shí),都需要對方差進(jìn)行限定。即:
根據實(shí)驗結果,該系統選取S2 min為0.025
(4)模型初值的設定:EM算法是尋找局部最大概率的模型。不同的初值會(huì )導致不同的局部極值。該系統中采用的是K均值法。
2.5 K均值法應注意的幾個(gè)問(wèn)題
(1)聚類(lèi)中心的初始化。對于聚類(lèi)中心數目由GMM模型決定,假設是N。對于聚類(lèi)中心的初始化,一般取前N個(gè)矢量作為聚類(lèi)中心,但在實(shí)驗過(guò)程中發(fā)現,這種方法不具有針對性,往往設立的初始的聚類(lèi)中心不具有很好的聚類(lèi)效果。所以這里采用取質(zhì)心法。具體方法為:
第一步先求出訓練集S中全體矢量X的質(zhì)心,然后在S中找出一個(gè)與此質(zhì)心的畸變量最大的矢量Xj,再在S中找到一個(gè)與Xj的畸變量最大的矢量Xk。以Xj和Xk為基準進(jìn)行胞腔劃分,得到Sk和Sj兩個(gè)子集。對這兩個(gè)子集分別按照同樣的方法劃分得到4個(gè)子集。依次類(lèi)推,得到N個(gè)子集。這N個(gè)子集的質(zhì)心即為初始的聚類(lèi)中心。
(2)聚類(lèi)中心改進(jìn)量δ的選擇。對于聚類(lèi)中心改進(jìn)量δ的選擇,若選擇太大,則聚類(lèi)不充分,影響訓練效果;若太小,則會(huì )導致訓練無(wú)法完成,該系統通過(guò)試驗,取比較適中的數0.01。
(3)最大迭代次數的選擇。對于最大迭代次數的選擇,太小會(huì )導致誤判,太大導致訓練不成功時(shí)過(guò)多的占用系統時(shí)間。該系統迭代次數設為100,比較適中。
3 實(shí)驗結果及改進(jìn)點(diǎn)
通過(guò)系統調試及改進(jìn),該系統最終實(shí)現10個(gè)說(shuō)話(huà)人的身份識別,并自舉運行。運行時(shí)通過(guò)Switch組合可方便的選擇訓練或識別的功能,并可更新說(shuō)話(huà)人。訓練,識別的進(jìn)度及結果通過(guò)LED組合顯示。利用該系統對5男5女10個(gè)人進(jìn)行訓練,每人500次測試,結果正確識別率為98%,識別時(shí)間為3 s左右。說(shuō)明該系統可以有效的識別說(shuō)話(huà)人的身份。對于該系統,識別時(shí)間及識別率上還有改進(jìn)空間,以后工作可圍繞識別時(shí)間上改進(jìn)。
評論