<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 設計應用 > 基于DPP的自動(dòng)音符切分識別研究

基于DPP的自動(dòng)音符切分識別研究

作者：張世超陳琦呂杰時(shí)間：2016-04-26 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

編者按：基于內容的音樂(lè )分析是計算機音樂(lè )智能處理領(lǐng)域的重要分支，其中音符的分割和識別是關(guān)鍵技術(shù)之一。本文首先根據音級輪廓特征(PCP)，對音樂(lè )進(jìn)行特征提取，將幀集通過(guò)行列式點(diǎn)過(guò)程(DPP)進(jìn)行建模，最后根據最大后驗概率估計(MAP)選出幀子集，從而實(shí)現音符的分割。DPP將復雜的概率計算轉換為簡(jiǎn)單的行列式計算，減少了計算量。在鋼琴音樂(lè )片段多音符的的識別中，得到了67.3%的正確率，解決了多音符的切分識別難題。

摘要：基于內容的音樂(lè )分析是計算機音樂(lè )智能處理領(lǐng)域的重要分支，其中音符的分割和識別是關(guān)鍵技術(shù)之一。本文首先根據音級輪廓特征(PCP)，對音樂(lè )進(jìn)行特征提取，將幀集通過(guò)行列式點(diǎn)過(guò)程(DPP)進(jìn)行建模，最后根據最大后驗概率估計(MAP)選出幀子集，從而實(shí)現音符的分割。DPP將復雜的概率計算轉換為簡(jiǎn)單的行列式計算，減少了計算量。在鋼琴音樂(lè )片段多音符的的識別中，得到了67.3%的正確率，解決了多音符的切分識別難題。

本文引用地址：http://dyxdggzs.com/article/201604/290272.htm

1 引言

　　對音符進(jìn)行識別是音樂(lè )信號分析處理領(lǐng)域中重要的研究?jì)热?。音符識別技術(shù)在音樂(lè )數據庫的建立、管理和索引中具有重要的應用價(jià)值，如何準確地進(jìn)行音符分割是檢索系統中較困難的問(wèn)題^[1]。音符識別技術(shù)可以便捷地實(shí)現樂(lè )譜的計算機錄入，在音樂(lè )內容檢索、計算機輔助鋼琴教學(xué)、音樂(lè )作品數字化等領(lǐng)域具有廣闊的應用前景。隨著(zhù)計算機多媒體技術(shù)、數字信號處理技術(shù)等不斷發(fā)展，越來(lái)越多的音樂(lè )作品進(jìn)入數字化的軌道，基于計算機的音樂(lè )識別、樂(lè )譜跟蹤、音樂(lè )分類(lèi)等一系列課題也被越來(lái)越多的學(xué)者關(guān)注?，F有音符分割的方法大多是依據能量分割。文獻[2]提出了使用聲音的頻譜參數，利用計算音符的自相似性進(jìn)行音符分割。文獻[3]憑借能量特征確定哼唱的起點(diǎn)和終點(diǎn)，通過(guò)設定動(dòng)態(tài)門(mén)限的方法實(shí)現音符分割。近些年，國內學(xué)者的研究主要集中在和弦的識別以及單音符的識別上，對于多音符的識別較為欠缺。本文將運用DPP識別模型，對多音符進(jìn)行分割識別。

　　行列式點(diǎn)過(guò)程模型(DPP)在圖片分割、文本摘要和商品推薦系統中都有成功的應用。DPP將復雜的概率計算轉換成簡(jiǎn)單的行列式的計算，減少了計算量，提高了運行速度，并且很好地解決了負相關(guān)的問(wèn)題^[4]。本文首先將音樂(lè )信號進(jìn)行PCP特征提取，在識別階段運用DPP進(jìn)行建模，并用300段標記好的訓練集對模型參數進(jìn)行訓練，從而完成音符的自動(dòng)分割識別。

基于DPP-1.jpg

2 DPP音符切分

2.1 PCP特征提取

　　音級輪廓特征(PCP)是音樂(lè )信息檢索中廣泛使用的一種信號特征。PCP將頻譜重建為音級譜，將音樂(lè )信號能量映射到12個(gè)音級上。

　　PCP特征計算：

　　第1步：分幀處理，將時(shí)域離散信號分為重疊的幀。

基于DPP公式1.jpg (1)

　　k表示頻率坐標，n表示短時(shí)傅里葉變換窗口的中心，w(m)為漢明窗。

　　第2步：頻譜映射,強X_STFT(k,n)映射為一個(gè)十二維的向量p(k)，每維表征了一個(gè)半音級的強度。映射公式為：

基于DPP公式2.jpg 　(2)

　　其中，f_ref為參考頻率，f_sr為采樣率。

　　第3步：將各個(gè)音級相對應的頻率點(diǎn)的頻率值進(jìn)行累加，得到每個(gè)時(shí)間片段的各個(gè)PCP分量的值，公式如下：

基于DPP公式3.jpg (3)

　　其中p=0，1，…，11。PCP通過(guò)一個(gè)12維的向量來(lái)表示一個(gè)音級，它反映了音符在每一個(gè)12半音音程中半音階刻度下的相對強度^[5]。

2.2 行列式點(diǎn)過(guò)程模型

2.2.1 DPP概述

　　行列式點(diǎn)過(guò)程(DPP)是一種概率模型，它通過(guò)核矩陣的行列式來(lái)給出每一個(gè)子集的概率^[6]。離散集基于DPP公式4.jpg 上的點(diǎn)過(guò)程P是一個(gè)2^γ上的一個(gè)概率測度，當Y是P的一個(gè)隨機子集時(shí)，P就被稱(chēng)作行列式點(diǎn)過(guò)程：

基于DPP公式5.jpg (4)

　　其中基于DPP公式6.jpg K為邊緣概率核矩陣，K包含了計算A的概率的所有信息。K_ij的值越大代表i和j越不可能同時(shí)發(fā)生，因此DPP適用于對突出差異性的集合進(jìn)行建模。從圖1可以看到，相比于獨立抽樣，DPP抽樣的點(diǎn)集覆蓋的信息更廣，全局性更好[7]。

2.2.2 模型的建立

　　K矩陣定義了一種邊緣概率，為了方便對真實(shí)數據進(jìn)行建模，通常采用L矩陣集來(lái)代替K，L定義了每一種子集概率，為最優(yōu)化提供了一個(gè)方便的表述。一個(gè)通過(guò)正定矩陣L定義的DPP如下：

基于DPP公式7.jpg 　(5)

　　其中，I為N乘N單位矩陣，基于DPP公式8.jpg 為歸一化因子，K=(L+I)^-1L。

　　對L進(jìn)行格萊姆分解^[8]：

基于DPP公式19.jpg (6)

　　qi∈R+表示i幀的Q值，即為能量;φ_i∈Rⁿ，||φ_i||₂=1為i幀的標準特征向量，由i幀的PCP特征向量做歸一化得到。所以基于DPP公式9.jpg 代表了i幀和j幀的相似度。

　　圖2為DPP的幾何描述，每一幀都由一個(gè)向量表示。圖a向量所圍成的面積即為幀i和幀j的聯(lián)合概率;圖b增加了幀j的Q值，聯(lián)合概率也增加了;圖c提高了幀i和幀j的相似度，聯(lián)合概率相應地減小。

2.2.3 建立目標函數

基于DPP-2.jpg

　　通過(guò)在條件行列式點(diǎn)過(guò)程模型中加入參數，來(lái)實(shí)現有監督的學(xué)習模型。對于訓練集基于DPP公式10.jpg ，輸入集合X為音樂(lè )每一個(gè)音符的一幀組成的點(diǎn)集，y(X)為該音樂(lè )內所有備選的點(diǎn)集。所以在參數θ下，給定的輸入集X，輸出集Y的條件概率如下:

基于DPP公式11.jpg (7)

　　其中基于DPP公式12.jpg 。

　　只要保證相似度特征矩陣是正定的，相似度特征向量φ_i(X)可任由期望的測量值構成，也可以是無(wú)限維度的。我們用對數線(xiàn)性模型計算Q值：

基于DPP公式13.jpg (8)

　　其中f_i(X)∈R^m為幀i表征Q值的特征向量，θ∈R^m為參數向量。

　　利用最大似然估計(MLE)建立目標函數：

基于DPP公式14.jpg (9)

　　最優(yōu)化L是基于一致性假設的。如果訓練數據準確地參數θ* 滿(mǎn)足條件行列式點(diǎn)過(guò)程分布，那么當基于DPP公式15.jpg 時(shí)，學(xué)習到的參數基于DPP公式16.jpg 。當然現實(shí)中的數據不可能準確地遵循任何確切的模型，但是最大似然近似依然能夠較好地矯正DPP產(chǎn)生合理的概率估計，因為使L最大相當于令訓練數據的對數損耗最小。

　　本文利用下降梯度算法，來(lái)最優(yōu)化對數似然，L(θ)梯度如下：

基于DPP公式17.jpg (10)

2.2.4 最大后驗概率估計(MAP)

　　我們需要用學(xué)習到的參數θ來(lái)預測測試集X，得到最終的點(diǎn)集Y。一種方法是從DPP條件分布中抽樣，這將需要立方的時(shí)間復雜度[9]，本文將采用最大后驗估計(MAP)來(lái)進(jìn)行預測。在約束條件下的Y^MAP定義如下：

基于DPP公式18.jpg (11)

　　其中cost(i)為幀i的能量，B為總能量的門(mén)限值，計算Y^MAP是NP困難問(wèn)題^[10]，我們這里做兩個(gè)近似。第一，我們通過(guò)抽樣獲得大量的子集Y，然后通過(guò)約束條件選擇可能性最大的一個(gè);第二，注意到公式(11)為一個(gè)子模塊，我們可以用一個(gè)簡(jiǎn)單的貪婪算法來(lái)近似它。對于單調子模塊問(wèn)題，這種算法有合理的近似保證^[11-12]。

3 實(shí)驗與結果分析

3.1 實(shí)驗環(huán)境與數據

　　本文的實(shí)驗環(huán)境為安裝有Matlab2010A 的PC 機，在356首符合條件的鋼琴曲片段中，隨機選出300個(gè)音樂(lè )片段作為訓練樣本數據，其余的56個(gè)片段作為測試數據。訓練、測試音樂(lè )片段的平均時(shí)間長(cháng)度為6.8s，平均多音音符15個(gè)。從訓練模型庫中可以看出經(jīng)過(guò)300個(gè)音樂(lè )片段訓練后得到的多音音符基本覆蓋了鋼琴88個(gè)單音所構成的多音符組合。表1是幾種多音符系統的識別率(多音符中單音符數超過(guò)3)。

基于DPP-3.jpg

3.2 結果分析

　　本課題所研究的基于DPP的多音符識別系統其識別率提高了近5%。與時(shí)頻域、統計法等識別相比，基于DPP的模式識別法雖然需要對樣本進(jìn)行先期訓練，但是由于DPP對多音符特征轉換較為精確的建模，為多音符的正確識別奠定了基礎。在模型建立過(guò)程中，對于相近多音符的建模是本課題識別率較低的原因之一。比如，對于多音符A1C2F2 和A1C3F3，在特征提取過(guò)程中，二者相差的只是C2和C3兩音符上的頻率帶能量差，而根據鋼琴十二平均律的物理特性，二者成倍頻關(guān)系，這就為PCP特征提取帶來(lái)極大的困難。

4 結束語(yǔ)

　　本文介紹了利用DPP模型對鋼琴曲進(jìn)行多音符自動(dòng)分割識別的初步研究結果。在運用PCP特征的的基礎上，音符識別率達到了67.2%。但是，根據實(shí)驗中出現的問(wèn)題，本系統還存在諸多需進(jìn)一步研究改進(jìn)的地方。首先，在對多音符的建模時(shí)，由于相近多音符的特征差異小，導致模型近似，出現誤識別，這就需要采用新的多音符特征;其次，DPP模型趨向于選擇差異性大的子集，所以對于短時(shí)有內大量重復旋律的音樂(lè )，DPP的分割正確率并不理想。但是，DPP將復雜的概率計算轉換成簡(jiǎn)單的行列式計算，在計算速度上大大優(yōu)于MRF^[13]，在對海量音樂(lè )進(jìn)行分割識別時(shí)，DPP的優(yōu)勢將更加明顯。

參考文獻：

　　[1]Meek C.J,Birminghan W.P Can't Sing:A Comprehensive Error Model for Sung Music Queries[C]//Proc.ofISMIR’02.Paris,France:[s.n],2002

　　[2]曹建紅.基于哼唱的音樂(lè )檢索技術(shù)研究[D].南京:南京理工大學(xué),2009

　　[3]Foote,J.,Automatic Autio Segmentation using a Measure of Audio Novelty.In Proceeding of IEEE Intermational Conference on Multimedia and Expo,vol.i,pp.452-455,July 30,2000

　　[4]A. Kulesza and B. Taskar, Determinantal Point Processes for Machine Learning, Foundations and Trends in Machine Learning: Vol. 5, No 2-3, 2012

　　[5]王峰. 美爾音級輪廓特征在音樂(lè )和弦識別算法中的應用研究[D]. 太原: 太原理工大學(xué), 2010

　　[6]Johansson. Determinantal processes with number variance saturation. Communications in

　　mathematical physics, 252(1):111–148, 2004

　　[7]Hough, M. Krishnapur, Y. Peres, and B. Vir_ag. Determinantal processes and independence. Probability Surveys, 3:206-229, 2006

　　[8]Kulesza and B. Taskar. Structured determinantal point processes. In Proc. NIPS, 2010

　　[9]A. Kulesza and B. Taskar. Learning Determinantal Point Processes. In Proc. UAI, 2011

　　[10]Ko, J. Lee, and M. Queyranne. An exact algorithm for maximum entropy sampling. Operations

　　Research, 43(4):684{691, 1995. ISSN 0030-364X

　　[11]Hui Lin and Jeff Bilmes. Multi-document summarization via budgeted maximization of submodular functions. In Proc. NAACL/HLT, 2010

　　[12]Krause and C. Guestrin. A note on the budgeted maximization of submodular functions.Technical Rep. No. CMU-CALD, 5:103, 2005

　　[13]Borodin. Determinantal Point Processes. arXiv:0911.1153, 2009

本文來(lái)源于中國科技期刊《電子產(chǎn)品世界》2016年第4期第28頁(yè)，歡迎您寫(xiě)論文時(shí)引用，并注明出處。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 音符切分 PCP 行列式點(diǎn)過(guò)程 子集選擇 MAP 201605

評論

相關(guān)推薦

Linear：慕尼黑電子展重點(diǎn)推介Dust Networks

Linear Dust Networks 201605 | 2016-04-26

在TMS320C62x DSP器件上為CDMA2000透平編碼加一個(gè)MAP編碼器

資源下載 TMS320C62x ASP MAP | 2007-04-19

組合電路_20041026_29

資源下載 Combinational Logic Design Boolean Algebra Minterm Maxterm K-Map | 2009-06-14

“2016愛(ài)普生創(chuàng )新大會(huì )”展示智造互聯(lián)成果

2016愛(ài)普生創(chuàng )新大會(huì ) 碓井稔 201605 | 2016-04-26

MAP圖對調速電機的作用

工控自動(dòng)化 MAP 電機 | 2016-07-21

編譯linux內核生成的system.map文件詳解

永遠在路上 | 2008-03-03

法國MVG攜明星產(chǎn)品StarLab首秀2016北京EDI CON

法國Microwave Vision 天線(xiàn)測試測量系統射頻安全設備電磁兼容 201605 | 2016-04-26

下一代移動(dòng)通信系統高速并行Turbo譯碼研究與FPGA實(shí)現

資源下載 Log-MAP 算法下一代移動(dòng)通信系統 FPGA 實(shí)現 100Mbps 并行譯碼 | 2009-03-26

關(guān)于內核編譯時(shí)的聯(lián)接及system.map的問(wèn)題

lhcumt | 2004-11-18

三菱電機獨創(chuàng )能識別PM2.5、花粉和灰塵的空氣質(zhì)量傳感器

三菱電機空氣質(zhì)量傳感器 201605 | 2016-04-26

愛(ài)德萬(wàn)測試AVI64擴充V93000平臺通用模擬測試能力

愛(ài)德萬(wàn)測試物聯(lián)網(wǎng)市場(chǎng) 201605 | 2016-04-26

基于A(yíng)ndroid平臺移動(dòng)導航定位的研究與設計

嵌入式系統 Android平臺 LBS Map API 移動(dòng)導航定位 | 2016-09-12

Vishay：創(chuàng )新才會(huì )吸引注重速度和安全的本土車(chē)企

Vishay 無(wú)源元件二極管功率MOSFET 光電子器件 201605 | 2016-04-26

CIC Xilinx FPGA trainning - Design Implementation

資源下載 Xilinx CIC FPGA NCD MAP PAR | 2008-06-11

LPC2104 的Boot 與Remap 詳解

資源下載 ARM LPC2104 Boot Remap Memory Map | 2009-04-26

MAP-CA寬帶數字信號處理器的原理及其應用

jack2011 | 2011-01-20

以技術(shù)融合優(yōu)勢服務(wù)于三網(wǎng)融合

Qorvo CATV Kellie Chong RFMD Triquint 201605 | 2016-04-26

基于A(yíng)ndroid警民交互系統的設計與實(shí)現

安防與國防 Android操作系統 Baidu Map API GPS定位警民交互 201606 | 2016-05-26

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>