基于DPP的自動(dòng)音符切分識別研究
摘要:基于內容的音樂(lè )分析是計算機音樂(lè )智能處理領(lǐng)域的重要分支,其中音符的分割和識別是關(guān)鍵技術(shù)之一。本文首先根據音級輪廓特征(PCP),對音樂(lè )進(jìn)行特征提取,將幀集通過(guò)行列式點(diǎn)過(guò)程(DPP)進(jìn)行建模,最后根據最大后驗概率估計(MAP)選出幀子集,從而實(shí)現音符的分割。DPP將復雜的概率計算轉換為簡(jiǎn)單的行列式計算,減少了計算量。在鋼琴音樂(lè )片段多音符的的識別中,得到了67.3%的正確率,解決了多音符的切分識別難題。
本文引用地址:http://dyxdggzs.com/article/201604/290272.htm1 引言
對音符進(jìn)行識別是音樂(lè )信號分析處理領(lǐng)域中重要的研究?jì)热?。音符識別技術(shù)在音樂(lè )數據庫的建立、管理和索引中具有重要的應用價(jià)值,如何準確地進(jìn)行音符分割是檢索系統中較困難的問(wèn)題[1]。音符識別技術(shù)可以便捷地實(shí)現樂(lè )譜的計算機錄入,在音樂(lè )內容檢索、計算機輔助鋼琴教學(xué)、音樂(lè )作品數字化等領(lǐng)域具有廣闊的應用前景。隨著(zhù)計算機多媒體技術(shù)、數字信號處理技術(shù)等不斷發(fā)展,越來(lái)越多的音樂(lè )作品進(jìn)入數字化的軌道,基于計算機的音樂(lè )識別、樂(lè )譜跟蹤、音樂(lè )分類(lèi)等一系列課題也被越來(lái)越多的學(xué)者關(guān)注?,F有音符分割的方法大多是依據能量分割。文獻[2]提出了使用聲音的頻譜參數,利用計算音符的自相似性進(jìn)行音符分割。文獻[3]憑借能量特征確定哼唱的起點(diǎn)和終點(diǎn),通過(guò)設定動(dòng)態(tài)門(mén)限的方法實(shí)現音符分割。近些年,國內學(xué)者的研究主要集中在和弦的識別以及單音符的識別上,對于多音符的識別較為欠缺。本文將運用DPP識別模型,對多音符進(jìn)行分割識別。
行列式點(diǎn)過(guò)程模型(DPP)在圖片分割、文本摘要和商品推薦系統中都有成功的應用。DPP將復雜的概率計算轉換成簡(jiǎn)單的行列式的計算,減少了計算量,提高了運行速度,并且很好地解決了負相關(guān)的問(wèn)題[4]。本文首先將音樂(lè )信號進(jìn)行PCP特征提取,在識別階段運用DPP進(jìn)行建模,并用300段標記好的訓練集對模型參數進(jìn)行訓練,從而完成音符的自動(dòng)分割識別。
2 DPP音符切分
2.1 PCP特征提取
音級輪廓特征(PCP)是音樂(lè )信息檢索中廣泛使用的一種信號特征。PCP將頻譜重建為音級譜,將音樂(lè )信號能量映射到12個(gè)音級上。
PCP特征計算:
第1步:分幀處理,將時(shí)域離散信號分為重疊的幀。
(1)
k表示頻率坐標,n表示短時(shí)傅里葉變換窗口的中心,w(m)為漢明窗。
第2步:頻譜映射,強XSTFT(k,n)映射為一個(gè)十二維的向量p(k),每維表征了一個(gè)半音級的強度。映射公式為:
(2)
其中,fref為參考頻率,fsr為采樣率。
第3步:將各個(gè)音級相對應的頻率點(diǎn)的頻率值進(jìn)行累加,得到每個(gè)時(shí)間片段的各個(gè)PCP分量的值,公式如下:
(3)
其中p=0,1,…,11。PCP通過(guò)一個(gè)12維的向量來(lái)表示一個(gè)音級,它反映了音符在每一個(gè)12半音音程中半音階刻度下的相對強度[5]。
2.2 行列式點(diǎn)過(guò)程模型
2.2.1 DPP概述
行列式點(diǎn)過(guò)程(DPP)是一種概率模型,它通過(guò)核矩陣的行列式來(lái)給出每一個(gè)子集的概率[6]。離散集上的點(diǎn)過(guò)程P是一個(gè)2γ上的一個(gè)概率測度,當Y是P的一個(gè)隨機子集時(shí),P就被稱(chēng)作行列式點(diǎn)過(guò)程:
(4)
其中K為邊緣概率核矩陣,K包含了計算A的概率的所有信息。Kij的值越大代表i和j越不可能同時(shí)發(fā)生,因此DPP適用于對突出差異性的集合進(jìn)行建模。從圖1可以看到,相比于獨立抽樣,DPP抽樣的點(diǎn)集覆蓋的信息更廣,全局性更好[7]。
2.2.2 模型的建立
K矩陣定義了一種邊緣概率,為了方便對真實(shí)數據進(jìn)行建模,通常采用L矩陣集來(lái)代替K,L定義了每一種子集概率,為最優(yōu)化提供了一個(gè)方便的表述。一個(gè)通過(guò)正定矩陣L定義的DPP如下:
(5)
其中,I為N乘N單位矩陣,為歸一化因子,K=(L+I)-1L。
對L進(jìn)行格萊姆分解[8]:
(6)
qi∈R+表示i幀的Q值,即為能量;φi∈Rn,||φi||2=1為i幀的標準特征向量,由i幀的PCP特征向量做歸一化得到。所以代表了i幀和j幀的相似度。
圖2為DPP的幾何描述,每一幀都由一個(gè)向量表示。圖a向量所圍成的面積即為幀i和幀j的聯(lián)合概率;圖b增加了幀j的Q值,聯(lián)合概率也增加了;圖c提高了幀i和幀j的相似度,聯(lián)合概率相應地減小。
2.2.3 建立目標函數
通過(guò)在條件行列式點(diǎn)過(guò)程模型中加入參數,來(lái)實(shí)現有監督的學(xué)習模型。對于訓練集,輸入集合X為音樂(lè )每一個(gè)音符的一幀組成的點(diǎn)集,y(X)為該音樂(lè )內所有備選的點(diǎn)集。所以在參數θ下,給定的輸入集X,輸出集Y的條件概率如下:
(7)
其中。
只要保證相似度特征矩陣是正定的,相似度特征向量φi(X)可任由期望的測量值構成,也可以是無(wú)限維度的。我們用對數線(xiàn)性模型計算Q值:
(8)
其中fi(X)∈Rm為幀i表征Q值的特征向量,θ∈Rm為參數向量。
利用最大似然估計(MLE)建立目標函數:
(9)
最優(yōu)化L是基于一致性假設的。如果訓練數據準確地參數θ* 滿(mǎn)足條件行列式點(diǎn)過(guò)程分布,那么當時(shí),學(xué)習到的參數
。當然現實(shí)中的數據不可能準確地遵循任何確切的模型,但是最大似然近似依然能夠較好地矯正DPP產(chǎn)生合理的概率估計,因為使L最大相當于令訓練數據的對數損耗最小。
本文利用下降梯度算法,來(lái)最優(yōu)化對數似然,L(θ)梯度如下:
(10)
2.2.4 最大后驗概率估計(MAP)
我們需要用學(xué)習到的參數θ來(lái)預測測試集X,得到最終的點(diǎn)集Y。一種方法是從DPP條件分布中抽樣,這將需要立方的時(shí)間復雜度[9],本文將采用最大后驗估計(MAP)來(lái)進(jìn)行預測。在約束條件下的YMAP定義如下:
(11)
其中cost(i)為幀i的能量,B為總能量的門(mén)限值,計算YMAP是NP困難問(wèn)題[10],我們這里做兩個(gè)近似。第一,我們通過(guò)抽樣獲得大量的子集Y,然后通過(guò)約束條件選擇可能性最大的一個(gè);第二,注意到公式(11)為一個(gè)子模塊,我們可以用一個(gè)簡(jiǎn)單的貪婪算法來(lái)近似它。對于單調子模塊問(wèn)題,這種算法有合理的近似保證[11-12]。
3 實(shí)驗與結果分析
3.1 實(shí)驗環(huán)境與數據
本文的實(shí)驗環(huán)境為安裝有Matlab2010A 的PC 機,在356首符合條件的鋼琴曲片段中,隨機選出300個(gè)音樂(lè )片段作為訓練樣本數據,其余的56個(gè)片段作為測試數據。訓練、測試音樂(lè )片段的平均時(shí)間長(cháng)度為6.8s,平均多音音符15個(gè)。從訓練模型庫中可以看出經(jīng)過(guò)300個(gè)音樂(lè )片段訓練后得到的多音音符基本覆蓋了鋼琴88個(gè)單音所構成的多音符組合。表1是幾種多音符系統的識別率(多音符中單音符數超過(guò)3)。
3.2 結果分析
本課題所研究的基于DPP的多音符識別系統其識別率提高了近5%。與時(shí)頻域、統計法等識別相比,基于DPP的模式識別法雖然需要對樣本進(jìn)行先期訓練,但是由于DPP對多音符特征轉換較為精確的建模,為多音符的正確識別奠定了基礎。在模型建立過(guò)程中,對于相近多音符的建模是本課題識別率較低的原因之一。比如,對于多音符A1C2F2 和A1C3F3,在特征提取過(guò)程中,二者相差的只是C2和C3兩音符上的頻率帶能量差,而根據鋼琴十二平均律的物理特性,二者成倍頻關(guān)系,這就為PCP特征提取帶來(lái)極大的困難。
4 結束語(yǔ)
本文介紹了利用DPP模型對鋼琴曲進(jìn)行多音符自動(dòng)分割識別的初步研究結果。在運用PCP特征的的基礎上,音符識別率達到了67.2%。但是,根據實(shí)驗中出現的問(wèn)題,本系統還存在諸多需進(jìn)一步研究改進(jìn)的地方。首先,在對多音符的建模時(shí),由于相近多音符的特征差異小,導致模型近似,出現誤識別,這就需要采用新的多音符特征;其次,DPP模型趨向于選擇差異性大的子集,所以對于短時(shí)有內大量重復旋律的音樂(lè ),DPP的分割正確率并不理想。但是,DPP將復雜的概率計算轉換成簡(jiǎn)單的行列式計算,在計算速度上大大優(yōu)于MRF[13],在對海量音樂(lè )進(jìn)行分割識別時(shí),DPP的優(yōu)勢將更加明顯。
參考文獻:
[1]Meek C.J,Birminghan W.P Can't Sing:A Comprehensive Error Model for Sung Music Queries[C]//Proc.ofISMIR’02.Paris,France:[s.n],2002
[2]曹建紅.基于哼唱的音樂(lè )檢索技術(shù)研究[D].南京:南京理工大學(xué),2009
[3]Foote,J.,Automatic Autio Segmentation using a Measure of Audio Novelty.In Proceeding of IEEE Intermational Conference on Multimedia and Expo,vol.i,pp.452-455,July 30,2000
[4]A. Kulesza and B. Taskar, Determinantal Point Processes for Machine Learning, Foundations and Trends in Machine Learning: Vol. 5, No 2-3, 2012
[5]王峰. 美爾音級輪廓特征在音樂(lè )和弦識別算法中的應用研究[D]. 太原: 太原理工大學(xué), 2010
[6]Johansson. Determinantal processes with number variance saturation. Communications in
mathematical physics, 252(1):111–148, 2004
[7]Hough, M. Krishnapur, Y. Peres, and B. Vir_ag. Determinantal processes and independence. Probability Surveys, 3:206-229, 2006
[8]Kulesza and B. Taskar. Structured determinantal point processes. In Proc. NIPS, 2010
[9]A. Kulesza and B. Taskar. Learning Determinantal Point Processes. In Proc. UAI, 2011
[10]Ko, J. Lee, and M. Queyranne. An exact algorithm for maximum entropy sampling. Operations
Research, 43(4):684{691, 1995. ISSN 0030-364X
[11]Hui Lin and Jeff Bilmes. Multi-document summarization via budgeted maximization of submodular functions. In Proc. NAACL/HLT, 2010
[12]Krause and C. Guestrin. A note on the budgeted maximization of submodular functions.Technical Rep. No. CMU-CALD, 5:103, 2005
[13]Borodin. Determinantal Point Processes. arXiv:0911.1153, 2009
本文來(lái)源于中國科技期刊《電子產(chǎn)品世界》2016年第4期第28頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處。
評論