基于內容的音頻檢索系統的前端抗噪技術(shù)
引言
本文引用地址:http://dyxdggzs.com/article/166556.htm基于內容的音頻檢索指通過(guò)音頻特征分析,對不同音頻數據賦以不同語(yǔ)義,使具有相同語(yǔ)義的音頻在聽(tīng)覺(jué)上保持相似。該技術(shù)在許多領(lǐng)域都有極大應用價(jià)值。在檢索系統中一種常見(jiàn)情形是將安靜環(huán)境下訓練的模型應用于實(shí)際有背景噪聲的環(huán)境。尤其在哼唱輸入的情況下,噪聲不可避免,因此噪聲背景環(huán)境中的音頻識別技術(shù)一直備受關(guān)注。本文給出一個(gè)將音頻增強和音頻檢索系統相連接的抗噪聲音頻檢索系統,重點(diǎn)分析基于內容的音頻檢索系統的前端抗噪技術(shù)。
2 系統平臺的建立
基于內容的音頻檢索系統運用多媒體信息處理技術(shù),結合人感知心理研究和模式識別技術(shù)實(shí)現音頻檢索,包括音頻分割、特征提取和索引檢索等關(guān)鍵步驟。在提交哼唱式音頻過(guò)程中不可避免地會(huì )受到來(lái)自周?chē)h(huán)境和傳輸媒介引入的噪聲、設備內部電噪聲的干擾。這些干擾將使檢索系統的性能惡化。因此,必須對帶噪音頻進(jìn)行抗噪處理。音頻檢索系統首先是建立數據庫,對音頻數據進(jìn)行特征提取。音頻檢索主要采用哼唱查詢(xún)方式,用戶(hù)通過(guò)查詢(xún)界面哼入查詢(xún)信息,然后提交查詢(xún)。在進(jìn)行屬性特征提取前通過(guò)前端抗噪模塊增強哼唱語(yǔ)音。接著(zhù)系統對哼唱音頻提取特征,然后檢索引擎對特征矢量進(jìn)行匹配,按相關(guān)性排序后通過(guò)查詢(xún)接口返回給用戶(hù)。圖1為抗噪聲檢索系統原理框圖。
3 音頻抗噪技術(shù)分析
3.1 語(yǔ)音增強算法分類(lèi)
系統前端輸入信號通常是哼唱輸入,語(yǔ)音頻段可以采用語(yǔ)音增強技術(shù)。語(yǔ)音增強是指為了提高受噪聲污染的語(yǔ)音信號的質(zhì)量而對含噪語(yǔ)音所做的處理,主要用于從帶噪語(yǔ)音信號中提取純凈的原始音頻或原始語(yǔ)音參數。根據不同的標準,語(yǔ)音增強算法有多種分類(lèi)方法。
從信號輸入的通道數分為單通道的語(yǔ)音增強算法與多通道的語(yǔ)音增強算法。單通道語(yǔ)音系統下語(yǔ)音與噪聲同時(shí)存在于一個(gè)通道中,語(yǔ)音信息與噪聲信息必須從同一個(gè)信號中得出。常用方法包括譜減法、信號統計模型方法、聽(tīng)覺(jué)掩蔽算法、維納濾波方法、信號子空間算法等。多通道語(yǔ)音增強算法則采用麥克風(fēng)陣列獲取信號數據,它可充分利用陣列信號的信號源方向、說(shuō)話(huà)人位置等空間特性,結合語(yǔ)音信號與噪聲的特征實(shí)現語(yǔ)音增強。代表性的算法有自適應波束形成算法、結合波束形成與后濾波算法及各種基于信號子空間、統計模型算法等。
另一種分類(lèi)方法是根據對語(yǔ)音信號處理方式的不同,將語(yǔ)音增強算法分為時(shí)域語(yǔ)音增強算法和變換域語(yǔ)音增強算法兩大類(lèi)。時(shí)域語(yǔ)音增強是在時(shí)間域直接處理帶噪語(yǔ)音來(lái)恢復純凈語(yǔ)音,利用語(yǔ)音信號在時(shí)域中的短時(shí)平穩特性、相關(guān)特性等來(lái)研究具有針對性的噪聲消除技術(shù),其代表性算法有最大后驗概率估計法、卡爾曼濾波法、梳狀濾波器法、子空間的方法、自適應噪聲抵消算法、語(yǔ)音生成模型等。變換域語(yǔ)音增強需一個(gè)適當的變換將語(yǔ)音信號轉換到變換域中,然后針對變換域中的帶噪語(yǔ)音分量的特性設計算法恢復純凈語(yǔ)音分量,最后通過(guò)相應的反變換獲得純凈語(yǔ)音信號在時(shí)域中的估計。其常用變換有離散傅里葉變換、離散余弦變換及K-L變換和小波變換等,代表性算法有譜減法、維納濾波法、短時(shí)譜幅度的MMSE估計、自適應濾波法等、聽(tīng)覺(jué)掩蔽效應增強算法,小波變換算法、基于頻域盲源分離的語(yǔ)音增強技術(shù)等。還有一些新方法,如神經(jīng)網(wǎng)絡(luò )、分形理論等。
評論