智能語(yǔ)音技術(shù)中麥克風(fēng)陣列的原理
麥克風(fēng)陣列(Microphone Array),從字面上,指的是麥克風(fēng)的排列。也就是說(shuō)由一定數目的聲學(xué)傳感器(一般是麥克風(fēng))組成,用來(lái)對聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統。
本文引用地址:http://dyxdggzs.com/article/201807/383049.htm
早在20世紀70、80年代,麥克風(fēng)陣列已經(jīng)被應用于語(yǔ)音信號處理的研究中,進(jìn)入90年代以來(lái),基于麥克風(fēng)陣列的語(yǔ)音信號處理算法逐漸成為一個(gè)新的研究熱點(diǎn)。而到了“聲控時(shí)代”,這項技術(shù)的重要性顯得尤為突出。
麥克風(fēng)陣列能干什么?
任何一項技術(shù)的發(fā)生發(fā)展都伴隨著(zhù)問(wèn)題的提出及解決,麥克風(fēng)陣列也是如此。那么它主要應用在哪些場(chǎng)景下呢?又有著(zhù)怎樣的功能!
噪聲環(huán)境怎么破?— 語(yǔ)音增強
語(yǔ)音增強是指當語(yǔ)音信號被各種各樣的噪聲(包括語(yǔ)音)干擾甚至淹沒(méi)后,從含噪聲的語(yǔ)音信號中提取出純凈語(yǔ)音的過(guò)程。所以DingDong在嘈雜環(huán)境下,也能準確識別語(yǔ)音指令。
通過(guò)麥克風(fēng)陣列波束形成進(jìn)行語(yǔ)音增強示意圖
從20世紀60年代開(kāi)始,Boll等研究者先后提出了針對使用一個(gè)麥克風(fēng)的語(yǔ)音增強技術(shù),稱(chēng)為單通道語(yǔ)音增強。因為它使用的麥克風(fēng)個(gè)數最少,并且充分考慮到了語(yǔ)音譜和噪聲譜的特性,使得這些方法在某些場(chǎng)景下也具有較好的噪聲抑制效果,并因其方法簡(jiǎn)單、易于實(shí)現的特點(diǎn)廣泛應用于現有語(yǔ)音通信系統與消費電子系統中。
但是,在復雜的聲學(xué)環(huán)境下,噪聲總是來(lái)自于四面八方,且其與語(yǔ)音信號在時(shí)間和頻譜上常常是相互交疊的,再加上回波和混響的影響,利用單麥克風(fēng)捕捉相對純凈的語(yǔ)音是非常困難的。而麥克風(fēng)陣列融合了語(yǔ)音信號的空時(shí)信息,可以同時(shí)提取聲源并抑制噪聲。
目前科大訊飛已經(jīng)實(shí)現了基于線(xiàn)性陣列、平面陣列以及空間立體陣列的波束形成和降噪技術(shù),效果均達到業(yè)界一流水平。
說(shuō)話(huà)人老是變幻位置怎么破?—聲源定位
現實(shí)中,聲源的位置是不斷變化的,這對于麥克風(fēng)收音來(lái)說(shuō),是個(gè)障礙。麥克風(fēng)陣列則可以進(jìn)行聲源定位,聲源定位技術(shù)是指使用麥克風(fēng)陣列來(lái)計算目標說(shuō)話(huà)人的角度和距離,從而實(shí)現對目標說(shuō)話(huà)人的跟蹤以及后續的語(yǔ)音定向拾取,是人機交互、音視頻會(huì )議等領(lǐng)域非常重要的前處理技術(shù)。所以麥克風(fēng)陣列技術(shù)不限制說(shuō)話(huà)人的運動(dòng),不需要移動(dòng)位置以改變其接收方向,具有靈活的波束控制、較高的空間分辨率、高的信號增益與較強的抗干擾能力等特點(diǎn),因而成為智能語(yǔ)音處理系統中捕捉說(shuō)話(huà)人語(yǔ)音的重要手段。
室內回聲太大怎么破?—去混響
一般我們聽(tīng)音樂(lè )時(shí),希望有混響的效果,這是聽(tīng)覺(jué)上的一種享受。合適的混響會(huì )使得聲音圓潤動(dòng)聽(tīng)、富有感染力?;祉?Reverberation)現象指的是聲波在室內傳播時(shí),要被墻壁、天花板、地板等障礙物形成反射聲,并和直達聲形成疊加,這種現象稱(chēng)為混響。
但是,混響現象對于識別就沒(méi)有什么好處了。由于混響則會(huì )使得不同步的語(yǔ)音相互疊加,帶來(lái)了音素的交疊掩蔽效應(Phoneme Overlap Effect),從而嚴重影響語(yǔ)音識別效果。
影響語(yǔ)音識別的部分一般是晚期混響部分,所以去混響的主要工作重點(diǎn)是放在如何去除晚期混響上面,多年來(lái),去混響技術(shù)抑制是業(yè)界研究的熱點(diǎn)和難點(diǎn)。利用麥克風(fēng)陣列去混響的主要方法有以下幾種:
1、基于盲語(yǔ)音增強的方法(Blind signal enhancement approach),即將混響信號作為普通的加性噪聲信號,在這個(gè)上面應用語(yǔ)音增強算法。
2、基于波束形成的方法(Beamforming based approach),通過(guò)將多麥克風(fēng)對收集的信號進(jìn)行加權相加,在目標信號的方向形成一個(gè)拾音波束,同時(shí)衰減來(lái)自其他方向的反射聲。
3、基于逆濾波的方法(An inverse filtering approach),通過(guò)麥克風(fēng)陣列估計房間的房間沖擊響應(Room Impulse Response, RIR),設計重構濾波器來(lái)補償來(lái)消除混響。
現在科大訊飛實(shí)現的基于麥克風(fēng)陣列的去混響技術(shù)能很好的對房間的混響情況進(jìn)行自適應的估計,從而很好的進(jìn)行純凈信號的還原,顯著(zhù)的提升了語(yǔ)音聽(tīng)感和識別效果,在測試對比中,多種混響時(shí)間下識別效果接近手機近講水平。
混響語(yǔ)音信號頻譜
說(shuō)話(huà)人太多怎么破?—聲源信號提取(分離)
家里人說(shuō)話(huà)太多,DingDong聽(tīng)誰(shuí)的呢。這個(gè)時(shí)候就需要DingDong聰明的辨別出哪個(gè)聲音才是指令。而麥克風(fēng)陣列可以實(shí)現聲源信號提取,聲源信號的提取就是從多個(gè)聲音信號中提取出目標信號,聲源信號分離技術(shù)則是將需要將多個(gè)混合聲音全部提取出來(lái)。
通過(guò)麥克風(fēng)陣列波束形成做語(yǔ)音提取和分離
利用麥克風(fēng)陣列做信號的提取和分離主要有以下幾種方式:
1、基于波束形成的方法,即通過(guò)向不同方向的聲源分別形成拾音波束,并且抑制其他方向的聲音,來(lái)進(jìn)行語(yǔ)音提取或分離:
2、基于傳統的盲源信號分離(Blind Source Separation)的方法進(jìn)行,主要包括主成分分析(Principal Component Analysis,PCA)和基于獨立成分分析(Independent Component Analysis,ICA)的方法。
進(jìn)擊的麥克風(fēng)陣列
麥克風(fēng)陣列技術(shù)雖然已經(jīng)可以達到相當的技術(shù)水平,但是總體上還是存在一些問(wèn)題的,比如當麥克風(fēng)和信號源距離太遠時(shí)(比如10m、20m距離),錄制信號的信噪比會(huì )很低,算法處理難度很大;對于便攜設備來(lái)說(shuō),受設備尺寸以及功耗的限制,麥克風(fēng)的個(gè)數不能太多,陣列尺寸也不能太大。而分布式麥克風(fēng)陣列技術(shù)則是解決當前問(wèn)題的一個(gè)可能途徑。所謂分布式陣列就是將子陣元或子陣列布局到更大的范圍內,相互之間通過(guò)有線(xiàn)或者無(wú)線(xiàn)的方式進(jìn)行數據的交換和共享,并在此基礎上進(jìn)行廣義上的聲源定位、波束形成等技術(shù)實(shí)現信號處理。
相對于目前集中式的麥克風(fēng)陣列,分布式陣列的優(yōu)勢也是非常明顯的。首先分布式麥克風(fēng)陣列(尤其無(wú)線(xiàn)傳輸)的尺寸的限制就不存在了;另外,陣列的節點(diǎn)可以覆蓋很大的面積——總會(huì )有一個(gè)陣列的節點(diǎn)距離聲源很近,錄音信噪比大幅度提升,算法處理難度也會(huì )降低,總體的信號處理的效果也會(huì )有非常顯著(zhù)的提升,因此分布式陣列有可能是未來(lái)智能家居和會(huì )議系統中的主流方案。
在萬(wàn)物互聯(lián)的今天,麥克風(fēng)陣列技術(shù)已經(jīng)深刻的走進(jìn)了我們的日常生活。在智能車(chē)載、智能家居、機器人、可穿戴設備等應用熱潮正興起的時(shí)代,語(yǔ)音交互由于其便捷性,成了人機交互入口的第一選擇,麥克風(fēng)陣列自然也成為其中非常重要的前端技術(shù)。
評論