Meta-DETR | 圖像級“元”學(xué)習提升目標檢測精度
One-shot目標檢測旨在通過(guò)幾個(gè)標注的樣本來(lái)檢測新的目標。之前的工作已經(jīng)證明了元學(xué)習是一個(gè)很有前途的解決方案,它們中的大多數基本上是通過(guò)解決在區域上的元學(xué)習檢測來(lái)進(jìn)行分類(lèi)和位置微調。
一、簡(jiǎn)要
One-shot目標檢測旨在通過(guò)幾個(gè)標注的樣本來(lái)檢測新的目標。之前的工作已經(jīng)證明了元學(xué)習是一個(gè)很有前途的解決方案,它們中的大多數基本上是通過(guò)解決在區域上的元學(xué)習檢測來(lái)進(jìn)行分類(lèi)和位置微調。
啟發(fā):人類(lèi)可以只看目標一次,就可以達到對目標的快速識別能力,但是機器目前無(wú)法達到這樣的水平。也就是在小樣本情況下的深度學(xué)習目標檢測仍然存在很大的困難。
然而,這些方法在很大程度上依賴(lài)于最初位置良好的候選區域,這通常在one-shot設置下很難獲得。研究者提出了一種新的元檢測器框架,即Meta-DETR,實(shí)現區域預測,并以統一互補的方式在圖像水平上學(xué)習目標位置和分類(lèi)。具體地說(shuō),它首先將support和query圖像編碼為特定類(lèi)別的特征,然后將它們輸入到一個(gè)與類(lèi)別無(wú)關(guān)的****中,以直接生成具體類(lèi)的預測。為了促進(jìn)深度網(wǎng)絡(luò )的元學(xué)習,研究者設計了一個(gè)簡(jiǎn)單而有效的語(yǔ)義對齊機制(Semantic Alignment Mechanism,SAM),它協(xié)調高級和低級特征語(yǔ)義,以改進(jìn)元學(xué)習表示的泛化。
二、背景
計算機視覺(jué)近年來(lái)取得了重大進(jìn)展。然而,在從很少的例子中學(xué)習新概念方面,當前的計算機視覺(jué)技術(shù)和人類(lèi)視覺(jué)系統之間仍然存在著(zhù)巨大的差距:大多數現有的方法需要大量的標注樣本,而人類(lèi)即使需要很少的指導,也可以毫不費力地識別一個(gè)新概念。特別是當沒(méi)有足夠的訓練樣本或很難獲得其注釋時(shí),這種從有限的例子中推廣的類(lèi)人能力對于機器視覺(jué)系統是非??扇〉?。
如上圖的上部,它們主要通過(guò)對區域執行元學(xué)習,包括候選區域、定位點(diǎn)和窗口中心,來(lái)進(jìn)行分類(lèi)和位置微調。然而,正如在[QiFan,WeiZhuo,Chi-KeungTang,andYu-WingTai.Few- shot object detection with attention-RPN and multi-relation detector. In CVPR, 2020]和[Weilin Zhang, Yu-Xiong Wang, and D. Forsyth. Coop- erating RPN’s improve few-shot object detection. ArXiv, 2011.10142, 2020]中所指出的那樣,這些方法在很大程度上依賴(lài)于初始候選區域的質(zhì)量,這在訓練樣本稀缺的one-shot設置中不能得到保證,從而產(chǎn)生不準確或缺失的檢測。雖然FSOD提議元學(xué)習區域候選的生成,但這個(gè)問(wèn)題仍然是由于該框架本身仍然是基于區域的。
基于上述分析,現有元檢測器的一個(gè)關(guān)鍵局限性是區域預測方法。此外,在具有挑戰性的one-shot目標檢測設置下,對標注樣本的監督最小,應該最大限度地利用分類(lèi)和定位之間的互補效應。因此,理想的元檢測器應該放棄這種基于區域的預測,并通過(guò)完全端到端的元學(xué)習兩個(gè)子任務(wù),有效地利用分類(lèi)和定位之間的協(xié)同關(guān)系。然而,據我們所知,這樣的框架仍然沒(méi)有存在。
Few-Shot Learning
one-shot學(xué)習旨在在從很少的樣本中學(xué)習新概念,縮小現有模型和人類(lèi)之間的差距。一個(gè)很有前途的解決方案是元學(xué)習,它旨在提取元層次的知識,可以通過(guò)“學(xué)習到學(xué)習”跨各種任務(wù)進(jìn)行推廣。大量的研究已經(jīng)證明了元學(xué)習范式在one-shot分類(lèi)任務(wù)中的有效性。然而,其他更復雜的one-shot學(xué)習任務(wù)仍然相對沒(méi)有充分探索。
三、新框架
為了在圖像層面上進(jìn)行統一的定位和分類(lèi)元學(xué)習,新框架的元學(xué)習在概念上很簡(jiǎn)單。如上圖所示,它由查詢(xún)編碼分支(QEB)、支持編碼分支(SEB)和解碼分支(DB)組成。給定一個(gè)查詢(xún)圖像和幾個(gè)帶有實(shí)例標注的支持圖像,QEB和SEB首先分別將它們分別編碼為查詢(xún)特征和類(lèi)別代碼。然后,DB以查詢(xún)特征和類(lèi)別代碼作為輸入,并預測相應支持類(lèi)別的檢測結果。由于要檢測的目標類(lèi)別是基于提供的支持圖像的動(dòng)態(tài)條件的,Meta-DETR能夠提取類(lèi)別不可知的元級知識,可以很容易地適應新的類(lèi)別。
Semantic Alignment Mechanism:一個(gè)簡(jiǎn)單的殘差連接作為自正則化,通過(guò)對齊輸入和輸出的特征語(yǔ)義,防止transformer編碼器依賴(lài)于期望的類(lèi)別特定特征。
四、實(shí)驗
Pascal VOC test 07測試結果
MS COCO val 2017測試結果
可視化查詢(xún)特征和類(lèi)別代碼之間的相關(guān)性。通過(guò)引入語(yǔ)義對齊機制(SAM),觀(guān)察到了對基類(lèi)和新類(lèi)(鳥(niǎo))的清晰響應,證明了SAM在增強元學(xué)習表示的泛化方面的有效性。
Visualization of multi-scale Meta-DETR’s 10-shot object detection results on Pascal VOC category split 1. Novel categories include bird, bus, cow, motorcycle, and sofa. For simplicity, only results of novel categories are illustrated. White boxes indicate correct detections. Red solid boxes indicate false positives. Red dashed boxes indicate false negatives.
Visualization of multi-scale Meta-DETR’s 30-shot object detection results on MS COCO. Novel categories include person, bicycle, car, motorcycle, airplane, bus, train, boat, bird, cat, dog, horse, sheep, cow, bottle, chair, couch, potted plant, dining table, and tv. For simplicity, only results of novel categories are illustrated. White boxes indicate correct detections. Red solid boxes indicate false positives. Red dashed boxes indicate false negatives.
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
熱式質(zhì)量流量計相關(guān)文章:熱式質(zhì)量流量計原理 流量計相關(guān)文章:流量計原理