<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > TPAMI 2021|聽(tīng)聲識物:視音一致性下的視覺(jué)物體感知

TPAMI 2021|聽(tīng)聲識物:視音一致性下的視覺(jué)物體感知

發(fā)布人:機器之心 時(shí)間:2022-03-08 來(lái)源:工程師 發(fā)布文章
該研究由中國人民大學(xué)GeWu實(shí)驗室主導,發(fā)表在IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI),目前相關(guān)代碼已開(kāi)源。


隨著(zhù)互聯(lián)網(wǎng)的發(fā)展,在能夠輕易獲取海量數據但標注困難的背景下,無(wú)監督學(xué)習的重要性不斷上升并在近年得到了廣泛關(guān)注。其中,如何能夠讓機器以無(wú)監督的方式建立對客觀(guān)物體的認知是亟待解決的問(wèn)題之一。
在人類(lèi)的實(shí)踐經(jīng)驗中,出色的多重感官讓我們對周?chē)沫h(huán)境能夠做出快速而準確的判斷。根據有關(guān)研究表明,人類(lèi)通過(guò)視覺(jué)和聽(tīng)覺(jué)獲取了大腦從外界所接收信息的絕大部分(約占 90% 以上)。視覺(jué),聽(tīng)覺(jué),及其相互之間的關(guān)聯(lián)關(guān)系在我們對外界的認知過(guò)程中起著(zhù)至關(guān)重要的作用。例如,當在音樂(lè )廳享受音樂(lè )時(shí),無(wú)論是悠揚的弦樂(lè )組,還是渾厚的管樂(lè )組,甚至藏在角落的三角鐵,只要聽(tīng)到了聲音,我們就可以毫不費力地判斷出是哪個(gè)樂(lè )器在舞臺的哪個(gè)角落奏鳴。這是因為一個(gè)我們在小時(shí)候學(xué)到的物理現象:聲音是由物體振動(dòng)產(chǎn)生的,那么不同樂(lè )器因為其所具有的不同的振動(dòng)頻率,導致其所發(fā)出的音色是不同的,而不同的聲色幫助我們區別并認識不同的樂(lè )器。
由此可見(jiàn),物體與其所發(fā)出聲音之間的天然對應關(guān)系為模型的訓練提供了自監督信號。并且,大部分物體在視覺(jué)和聽(tīng)覺(jué)上均具有類(lèi)間差異大而類(lèi)內差異小的物理性質(zhì)。這一物理性質(zhì)為模型通過(guò)表征聚合等方式習得類(lèi)別判別能力提供了實(shí)際基礎?;谶@一現象,在該研究中,作者首先對復雜場(chǎng)景下的多聲源定位任務(wù)進(jìn)行了定義,為模型引入類(lèi)別判別能力。再則,借助判別性聲源定位任務(wù)實(shí)現對不同類(lèi)別物體的認知,在無(wú)需人為標注的情況下,為解決典型視覺(jué)任務(wù),如物體檢測,提供了新思路。
引言
在該研究中,作者以判別性聲源定位為基礎實(shí)現了構建物體類(lèi)別認知的目標,并將其應用在其他經(jīng)典視覺(jué)任務(wù)中,如物體檢測。聲源定位任務(wù)的目標為:輸入一段視頻及其對應的音頻(一般指單通道音頻),模型能夠定位出畫(huà)面中發(fā)聲物體的位置。先前的聲源定位任務(wù)所涉及的場(chǎng)景相對較單一,主要聚焦在單聲源或具備先驗知識(如畫(huà)面中物體均發(fā)聲且個(gè)數已知)的多聲源場(chǎng)景中。但在現實(shí)生活中,如雞尾酒會(huì ),不僅常常同時(shí)具備多個(gè)物體,而且發(fā)聲與不發(fā)聲物體往往交織在一起。此外,現有聲源定位工作僅停留在對發(fā)聲物體的定位上,而缺乏在發(fā)聲物體的類(lèi)別判別方面的探索。因此,該研究希望在無(wú)需額外先驗知識的情況下解決更加貼近生活場(chǎng)景的包含不發(fā)聲物體的判別性多聲源定位任務(wù)。

圖片

圖 1 真實(shí)的多聲源場(chǎng)景常常包含多種物體且存在不發(fā)聲物體。
該研究的貢獻和創(chuàng )新點(diǎn)可以總結為以下幾個(gè)方面:

  • 受人類(lèi)視音感知能力的啟發(fā),提出了判別性多聲源定位任務(wù):不僅定位出發(fā)聲物體的位置而且辨別其類(lèi)別。

  • 提出了兩階段的學(xué)習框架。在單聲源場(chǎng)景中學(xué)習物體的視音表征,并遷移至多聲源場(chǎng)景下解決包含不發(fā)聲物體的判別性多聲源定位任務(wù)。

  • 通過(guò)解決判別性聲源定位任務(wù)構建對不同類(lèi)別物體視覺(jué)表征的認知,并將其遷移到其他經(jīng)典視覺(jué)任務(wù)中,如物體檢測等。


圖片


論文鏈接:https://ieeexplore.ieee.org/document/9662191

項目主頁(yè):

https://gewu-lab.github.io/CSOL_TPAMI2021/


方法

圖片

圖 2 一階段 - 單聲源定位框架。
首先,由于判別性多聲源定位是相對困難的任務(wù),該研究提出按照從易到難,逐步遷移的思路。從單聲源定位任務(wù)開(kāi)始,通過(guò)在簡(jiǎn)單的場(chǎng)景下對物體的視覺(jué)表征有一定認知之后,遷移到更為復雜的多聲源場(chǎng)景中。根據聲音是由物體的振動(dòng)產(chǎn)生的這一規律可知,視覺(jué)和聽(tīng)覺(jué)之間天然存在著(zhù)一一對應關(guān)系,已有許多先前的研究利用該視音一致性作為自監督信號對網(wǎng)絡(luò )進(jìn)行預訓練。在聲源定位,特別是單聲源定位任務(wù)中,借助視音一致性自監督信號能夠以判斷輸入的音頻和視頻信號是否匹配作為目標進(jìn)行訓練,進(jìn)而得到畫(huà)面中對音頻信號響應較大的區域,即為發(fā)聲物體所在區域。這一過(guò)程利用了場(chǎng)景級別的視音一致性作為自監督信號。
與此同時(shí),基于聲源定位得到的定位圖能夠為排除復雜變化的背景干擾提供幫助,提取出較為干凈的物體視覺(jué)表征。并且,考慮到同一類(lèi)別的物體的視覺(jué)表征具有一致性,通過(guò)將相似的視覺(jué)表征聚集,而后提取該聚集類(lèi)別的代表性視覺(jué)表征是可行的?;谶@一思想,該研究提出用聚類(lèi)的方法對基于單聲源定位得到的所有樣本的視覺(jué)表征進(jìn)行聚類(lèi)。聚類(lèi)的每一個(gè)簇被認為能夠代表一種語(yǔ)義類(lèi)別的視覺(jué)表征的集合。同時(shí),針對每個(gè)簇提取該類(lèi)別的代表性視覺(jué)表征并打上偽標簽,便能構建相應的物體視覺(jué)表征字典,為解決多聲源定位任務(wù)做鋪墊。

圖片

圖 3 二階段 - 多聲源定位框架。
在第二階段的多聲源定位中,該研究遞進(jìn)地先從視覺(jué)上定位出畫(huà)面中存在的物體,再進(jìn)一步根據聽(tīng)覺(jué)信息過(guò)濾不發(fā)聲物體。畫(huà)面中存在物體的判斷借助了一階段中對物體視覺(jué)表征學(xué)習及所構建的不同類(lèi)別物體視覺(jué)表征字典。具體來(lái)說(shuō),對于某幀多聲源場(chǎng)景下的視頻,經(jīng)過(guò)視覺(jué)網(wǎng)絡(luò )提取其特征圖后,再將字典各個(gè)類(lèi)別的視覺(jué)表征與該特征圖的各個(gè)部分進(jìn)行內積操作判斷相似性。對于某一類(lèi)別而言,若特征圖中存在對該類(lèi)別視覺(jué)表征響應比較大的區域,則可認為該區域存在這一類(lèi)別的物體。此時(shí),畫(huà)面中存在的物體能夠被初步定位。進(jìn)而,對于不發(fā)聲物體的過(guò)濾,該研究首先利用場(chǎng)景級別的視音一致性進(jìn)行粗略的聲源定位得到畫(huà)面中的大致發(fā)聲區域,而后將基于畫(huà)面中存在物體的定位結果與發(fā)聲區域進(jìn)行哈達瑪積,過(guò)濾掉不發(fā)聲的物體,同時(shí)細化發(fā)聲物體的定位結果。
此時(shí),經(jīng)定位和過(guò)濾之后,便達到了在定位圖中過(guò)濾不發(fā)聲物體,保留發(fā)聲物體的目標。并且,根據定位結果所得到的發(fā)聲物體視覺(jué)表征與音頻表征構成了更細粒度的類(lèi)別級別的視音一致性,能夠作為自監督信號幫助訓練,最終達成多聲源定位的目標。
聲源定位結果

圖片

圖 4 在多個(gè)真實(shí)與合成數據集上的可視化定位結果。綠色框:發(fā)聲物體,紅色框:不發(fā)聲的物體。

圖片

圖 5 在多個(gè)真實(shí)與合成數據集上的定量分析結果。
文中在涵蓋了音樂(lè )、日常生活場(chǎng)景等廣泛類(lèi)別的多個(gè)真實(shí)及合成數據集上進(jìn)行了多聲源定位的實(shí)驗,并分別進(jìn)行了可視化及定量分析。在可視化定位圖中,每張圖展示了一類(lèi)物體的定位結果,且發(fā)聲物體有較大響應,而不發(fā)聲物體未響應或響應很低??梢钥吹?,尤其在合成的含有不發(fā)聲物體的復雜多聲源場(chǎng)景中,該方法具有較大優(yōu)勢。并且,該方法進(jìn)一步在聲源定位的基礎上具有辨別出物體的類(lèi)別能力。
應用:無(wú)監督物體檢測

圖片

圖 6 在 ImageNet 子集上的無(wú)監督物體檢測結果。
除了場(chǎng)景復雜性更高、更貼近生活之外,該研究通過(guò)將先前的聲源定位任務(wù)拓展到具有類(lèi)別敏感性的判別性聲源定位,達到了幫助模型認知不同類(lèi)別物體及其視覺(jué)表征的目標。這一特點(diǎn)為視覺(jué)領(lǐng)域其他典型任務(wù),如物體檢測,向無(wú)監督方向的發(fā)展提供了新的角度。對于無(wú)監督物體檢測任務(wù)來(lái)說(shuō),兩個(gè)關(guān)鍵問(wèn)題分別是物體邊界框的構建和類(lèi)別偽標簽的生成,而判別性聲源定位任務(wù)與其不謀而合。首先,無(wú)需額外代價(jià),聲源定位任務(wù)所提供的定位圖便能轉換為物體大致的邊界框。其次,判別性聲源定位為畫(huà)面中的發(fā)聲物體分配了類(lèi)別偽標簽。
在拓展實(shí)驗中,該研究利用單聲源定位所得到的定位圖構造物體的邊界框,并與物體的類(lèi)別偽標簽一起作為監督信號,在無(wú)需物體檢測標注的情況下訓練物體檢測器。ImageNet 子集上的可視化及定量實(shí)驗結果表明,該無(wú)監督物體檢測思路具有一定的可行性,尤其是在吉他等體積較大的物體類(lèi)別上。這一實(shí)驗驗證了這種從判別性聲源定位任務(wù)出發(fā)挖掘物體視覺(jué)知識并遷移到視覺(jué)領(lǐng)域其他任務(wù)上的思路具有應用前景。
總述
總的來(lái)說(shuō),該研究從人的多重感官認知出發(fā),考慮了聲音是由物體的振動(dòng)產(chǎn)生的這一物理現象,利用視音之間的對應關(guān)系及大部分物體在視音表征上類(lèi)間差異大而類(lèi)內差異小這一性質(zhì),引入并解決了具有挑戰性的判別性多聲源定位的任務(wù)。并且,該研究進(jìn)一步將所學(xué)習到的物體視覺(jué)知識遷移到包括物體檢測在內的其他視覺(jué)任務(wù)中,為用無(wú)監督方法解決典型視覺(jué)問(wèn)題提供了新方向。這一研究啟發(fā)我們充分利用多種模態(tài)的信息,尤其是視音模態(tài)之間的聯(lián)系,認知、學(xué)習不同物體的知識,重新思考多模態(tài)背景下傳統任務(wù)的解決。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。

pwm相關(guān)文章:pwm原理


電度表相關(guān)文章:電度表原理




關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>