<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 消費電子 > 設計應用 > 灰關(guān)聯(lián)分析與語(yǔ)音/音樂(lè )信號識別

灰關(guān)聯(lián)分析與語(yǔ)音/音樂(lè )信號識別

——
作者: 時(shí)間:2006-06-29 來(lái)源: 收藏
摘要:將灰關(guān)聯(lián)分析方法應用于語(yǔ)音/音樂(lè )信號的分類(lèi)和識別,并給出了對音頻信號進(jìn)行灰關(guān)聯(lián)分析的方法和步驟。利用語(yǔ)音和音樂(lè )信號的短時(shí)能量均方根的概率統計特征建立目標的參考數據和比較數據,進(jìn)行語(yǔ)音和音樂(lè )信號的灰關(guān)聯(lián)分析,確定目標識別與分類(lèi)的判據,并對兩類(lèi)信號進(jìn)行識別。仿真結果表明灰關(guān)聯(lián)分析方法應用于音頻信號分類(lèi)和識別具有一定的可行性。

   關(guān)鍵詞:灰關(guān)聯(lián)分析 特征 語(yǔ)音和音樂(lè )識別 仿真

語(yǔ)音和音樂(lè )是兩類(lèi)最重要的音頻數據,語(yǔ)音和音樂(lè )的自動(dòng)分類(lèi)在基于內容的音頻檢索、視頻的摘要以及語(yǔ)音識別等眾多領(lǐng)域都有重要的應用價(jià)值。

目前,國內外語(yǔ)音信號識別多采用基于感覺(jué)特征(例如響度、音調、諧度等)和過(guò)零率、功率譜、MFCC系數等多種語(yǔ)音/音樂(lè )分類(lèi)特征的模式識別技術(shù)實(shí)現信號的自動(dòng)識別。然而當識別對象的參數不完整、不齊全時(shí),這些方法有的不能給出正確可靠的結果,有的無(wú)法進(jìn)行識別,有的識別的可靠性較差。由于語(yǔ)音信號環(huán)境的復雜和多變性,語(yǔ)音和音樂(lè )信號參數有時(shí)很難完全得到,上述方法在實(shí)際應用中存在一定的局限性。

因此,如何有效利用現有的少量音頻數據,準確地進(jìn)行了音頻信號的自動(dòng)分類(lèi)識別,尤其是語(yǔ)音和音樂(lè )的分類(lèi),并作為提取音頻內容語(yǔ)義和結構的重要手段之一,其研究日益引起人們的重視?;疑到y理論特別是灰關(guān)聯(lián)分析方法的發(fā)展,為解決這一問(wèn)題提供了問(wèn)題。

圖1

1 語(yǔ)音/音樂(lè )信號的灰關(guān)聯(lián)分析方法

灰色系統理論屬系統論的范疇,灰色是指信息不完全?;疑到y理主要研究系統模型不明確、行為信息不完全、運行機制不清楚這類(lèi)系統的建模、預測、決策和控制等問(wèn)題。在進(jìn)行序列關(guān)聯(lián)分析時(shí),必須先確定參考數列,然后比其它序列與參考序列的接近程度,進(jìn)而進(jìn)出判斷?;谊P(guān)聯(lián)分析的主要步驟:(1)確定參考序列和比較序列;(2)求灰關(guān)聯(lián)系數;(3)求灰度聯(lián)度;(4)按灰關(guān)聯(lián)度大小排序。

2 參考序列和比較序列的確定

選取一定無(wú)停頓的語(yǔ)音信號和音樂(lè )信號作為待識別音頻信號,音頻信號的特征提取本質(zhì)上起到了降維作用,用較少的維度表現了時(shí)域上的音頻信號??紤]到只有在5~20ms的時(shí)間間隔內才可以認為音頻信號的特征基本保持不變。因此本文選取短時(shí)能量均方根的概率統計方法提取語(yǔ)音和音樂(lè )信號的特征。

圖1(a)和圖2(a)分別為語(yǔ)音和音樂(lè )信號短時(shí)能量的均方根(RMS)的時(shí)域波形。其采樣頻率均為11025Hz,矩形窗長(cháng)度N取10ms,時(shí)間長(cháng)度為30s。

式(1)中,x(n)是音頻信號,矩形窗序列沿音頻樣點(diǎn)序列逐幀移動(dòng),每段幀長(cháng)度為N。

30s的RMS的概率分布即信號分布頻數直方圖如圖1(b)、圖2(b)所示。由圖可知兩分布有效明顯的差異,可以作為識別語(yǔ)音和音樂(lè )信號的特片依據。進(jìn)一步研究發(fā)現其概率分布服從不同參數時(shí)的廣義X2分布。

選取上述30s的語(yǔ)音和音樂(lè )信號RMS概率分布作為參考序列,記為xj={xj(k)|k=1,2,…,K},其中x1為語(yǔ)音參序列,x2為音樂(lè )參考序列,記作yi={yi(k)|k=1,2,…,k},其中y1為語(yǔ)音比較數列,y2為音樂(lè )比較序列。K為特征數量,本文取K=10。為檢驗不同長(cháng)度比較序列的灰關(guān)聯(lián)度,特征提取的比較序列時(shí)間長(cháng)度分別取0.1s、1s、10s。圖3為與30s的語(yǔ)音和音樂(lè )參考信號RMS概率分布比較圖。由圖3可知,比較序列的時(shí)間長(cháng)度越長(cháng),概率分布與參考序列的相似程度就越大,當比較序列時(shí)長(cháng)為10s時(shí),概率分布幾乎與參考序列吻合。

為保證音頻序列的可比性,在進(jìn)行灰關(guān)聯(lián)分析時(shí),需要對序列進(jìn)行初值化生成處理,即對一個(gè)數列的所有數據均用其第一個(gè)數去除。這個(gè)新序列表明原始數列中不同時(shí)刻的值相對于第一個(gè)時(shí)刻值的倍數。

圖2

3 計算灰關(guān)聯(lián)系數

在語(yǔ)音/音樂(lè )識別中,由于目標的類(lèi)型為兩個(gè),有兩個(gè)參考序列,為區分不同的類(lèi)型就需要求一組比較序列與組參考序列的灰關(guān)聯(lián)度。如果在局部環(huán)境下計算每一組比較序列分別與二組參考序列的灰度聯(lián)系數,則在不同局部條件下所得到的灰關(guān)聯(lián)度將失去可比性。因此,為實(shí)現音頻類(lèi)型的識別,在計算某一個(gè)比較序列與各個(gè)參考序列的灰關(guān)聯(lián)度時(shí),必須是在相同最大值和最小值下計算,從而得到“全局環(huán)境”的灰關(guān)聯(lián)度系數。

計算全局環(huán)境下的灰關(guān)聯(lián)系數的算法如下:

其中,Nj={1,2},Ni={1,2},K={1,2,…,10},常數ξ稱(chēng)為分辨系數,ξ∈[0,1],其作用是調整比較環(huán)境的大小。ξ越小,分辨力越大。一段取ξ=0.5。minminmin|xj(k)-yi(k)|稱(chēng)為兩極最小差,maxmaxmax|xj(k)-yi(k)|稱(chēng)為兩極最大差,|xj(k)-yi(k)|稱(chēng)為第k個(gè)指標xj與yi的絕對差。

4 計算灰關(guān)聯(lián)度

灰關(guān)聯(lián)分析的實(shí)質(zhì),就是對數列曲線(xiàn)進(jìn)行幾何關(guān)系的比較。若兩數列曲線(xiàn)重合,則關(guān)聯(lián)性好,關(guān)聯(lián)系數為1,兩數列關(guān)聯(lián)度也行裝于1。同時(shí)兩數列曲線(xiàn)不可能垂直,即無(wú)關(guān)聯(lián)性,所以關(guān)聯(lián)系數大于1,故關(guān)聯(lián)度也大于0。由于在比較全過(guò)程中,關(guān)聯(lián)系數不止一個(gè),因此,取關(guān)聯(lián)系數的平均值作為比較全過(guò)程的關(guān)聯(lián)程度rji的度量,即:

5 按灰關(guān)聯(lián)度大小排序

對參考序列xj和比較序列yi的關(guān)聯(lián)度從大到小進(jìn)行排序,即得灰度聯(lián)序列。本文采用最大灰關(guān)聯(lián)度的識別原則。

圖3

    通過(guò)500次蒙特卡羅實(shí)驗,表1給出時(shí)間長(cháng)度0.1s、1s、10s比較序列,采用最大灰度關(guān)聯(lián)度的識別結果。

表1 不同時(shí)間長(cháng)度語(yǔ)音、音樂(lè )信號的正確識別率

時(shí)間長(cháng)度(s) 語(yǔ)音正確識別率 音樂(lè )正確識別率
0.1 62.37% 76.22%
1 94.50% 88.70%
10 100% 99.8%

圖4為進(jìn)行100次蒙特卡羅仿真,三種時(shí)間長(cháng)度的語(yǔ)音和音樂(lè )比較信號與各比較序列的最大灰關(guān)聯(lián)度。

從圖4中可以看出:

(1)在時(shí)間長(cháng)度為0.1s時(shí),語(yǔ)音、音樂(lè )信號與其兩類(lèi)模本的關(guān)聯(lián)度值相交。這是由于所表征序列的特征值并不完全的原因。

(2)時(shí)間長(cháng)度為1s時(shí),語(yǔ)音比較信號與其參考信號的關(guān)聯(lián)度均大于0.85,音樂(lè )比較信號與語(yǔ)音參考信號的關(guān)聯(lián)度大于0.6小于0.95;而音樂(lè )比較信號與其參考信號的關(guān)聯(lián)度均大于0.73小于0.9;語(yǔ)音比較信號與音樂(lè )參考信號的關(guān)聯(lián)度大于0.7小于0.85。同為語(yǔ)音模本的條件下,97%以上的語(yǔ)音信號關(guān)聯(lián)值大于音樂(lè )信號的關(guān)聯(lián)值。而模本為音樂(lè )的條件下,92%以上的音樂(lè )信號關(guān)聯(lián)值大于語(yǔ)音信號的關(guān)聯(lián)值。因此,在不同參考信號下,通過(guò)設置閾值可以作為識別語(yǔ)音和音樂(lè )信號的依據。

圖4

    (3)時(shí)間長(cháng)度為10s時(shí),語(yǔ)音比較信號與同類(lèi)模本的關(guān)聯(lián)值高于與音樂(lè )比較信號的關(guān)聯(lián)值20%~35%,高于語(yǔ)音參考信號與音樂(lè )模本的關(guān)聯(lián)值25%~30%;而音樂(lè )比較信號與同類(lèi)模本的關(guān)聯(lián)值以90%的準確率大于語(yǔ)音比較信號的關(guān)聯(lián)值,并且高于音樂(lè )比較信號與音樂(lè )的關(guān)取值,并且高于音樂(lè )比較信號與語(yǔ)音模本的關(guān)聯(lián)值5%~20%。所以,當信號特征提取充分時(shí),識別率可達100%。

事實(shí)上,音頻信號的灰關(guān)聯(lián)可以認為是近似相關(guān),參考序列與比較序列的特片值相關(guān)程度越高,其關(guān)聯(lián)值就越大,反之則較小。




關(guān)鍵詞: 消費電子 消費電子

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>