<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > CVPR 2022 Oral | 目標檢測新工作!南大開(kāi)源AdaMixer:快速收斂的基于查詢(xún)的目標檢測器

CVPR 2022 Oral | 目標檢測新工作!南大開(kāi)源AdaMixer:快速收斂的基于查詢(xún)的目標檢測器

發(fā)布人:計算機視覺(jué)工坊 時(shí)間:2022-04-10 來(lái)源:工程師 發(fā)布文章

作者:王利民 |  已授權轉載(源:知乎)編輯:CVer

https://zhuanlan.zhihu.com/p/493049779

圖片

AdaMixer: A Fast-Converging Query-Based Object Detector

代碼:https://github.com/MCG-NJU/AdaMixer

論文(剛剛開(kāi)源):

https://arxiv.org/abs/2203.16507

本文介紹一下我們在目標檢測的新工作AdaMixer,通過(guò)增強檢測器的自適應建模能力來(lái)加速query-based檢測器(類(lèi)DETR檢測器和Sparse RCNN)的收斂和最終的表現效果,并且使模型架構維持在一個(gè)相對簡(jiǎn)單的結構上。我們提出了一系列技術(shù)來(lái)增強query-based檢測器的decoder解碼部分,包括3D特征空間采樣和動(dòng)態(tài)MLP-Mixer檢測頭,這使得我們免于引入設計繁重、計算量大的各種注意力編碼器(attentional encoder),或者特征金字塔式的多尺度交互網(wǎng)絡(luò ),在保持效果的同時(shí)(其實(shí)我們超越了很多之前的模型),進(jìn)一步簡(jiǎn)化了基于query的檢測器的結構。

研究動(dòng)機

首先,我們簡(jiǎn)單介紹一下我們的研究動(dòng)機?,F在基于query的檢測器成為學(xué)術(shù)研究的熱點(diǎn),其通過(guò)query集合(有的文章也稱(chēng)proposal集合)和圖像特征圖的迭代交互抽取特征,不斷完善query本身的語(yǔ)義,使其能夠在matching loss下完成query對object的一對一cls和bbox預測?;趒uery的檢測器不需要后續的NMS操作,使得整個(gè)檢測流程更為簡(jiǎn)單和優(yōu)雅。但是我們發(fā)現,基于query的檢測器,尤其是類(lèi)DETR檢測器,其通常引入了多層的注意力編碼器(attentional encoder),這些注意力編碼器對每個(gè)像素密集地進(jìn)行全局或者局部的注意力計算,引入了較大的運算量,且不易于拓展到高分辨率的特征圖上,由此帶來(lái)了小物體檢測困難的問(wèn)題,而且可能會(huì )帶來(lái)訓練時(shí)長(cháng)的困擾。Sparse R-CNN流派引入了顯式的特征金字塔網(wǎng)絡(luò )FPN來(lái)增強對小物體的建模,但同樣的,特征金字塔網(wǎng)絡(luò )會(huì )引入額外的計算量。我們覺(jué)得在backbone和decoder之間加入額外的網(wǎng)絡(luò )其實(shí)有些不優(yōu)雅,而且這和用query做檢測的目標有點(diǎn)相違背了。如果檢測器需要厚重的密集編碼器的話(huà),那用數量少的query通過(guò)decoder可以檢測物體作為模型的亮點(diǎn)就有點(diǎn)南轅北轍了。出現這些問(wèn)題的根本原因還是decoder不夠強勢,需要encoder的建模能力來(lái)彌補,所以我們的方法的根本動(dòng)機就是增強decoder的能力,使檢測器盡量避免引入各種encoder。

但如何增強decoder的能力呢,尤其是對不同圖像不同目標的多樣化建模能力?這個(gè)問(wèn)題對只使用稀疏且數量限制的query的****至關(guān)重要?;仡櫟湫偷膓uery decoder本身,是一個(gè)基于transformer decoder的結構,首先將query和query之間做self attention,而后query和圖像特征feat做交互,然后每個(gè)query再過(guò)FFN。而這些初始的query雖然一般都是可學(xué)習的向量,但在inference時(shí)就固定下來(lái),無(wú)法對不同的輸入而變化(雖然現在有潮流把初始的query由類(lèi)RPN產(chǎn)生),所以如何保證query decoder本身的解碼機制對不同圖片輸入不同物體的自適應能力就成了一個(gè)問(wèn)題。為此,我們提出從兩個(gè)方面來(lái)改進(jìn)這種基于query的目標檢測器:采樣位置的自適應能力和解碼特征的自適應能力,對應著(zhù)就是我們提出的3D特征空間采樣和動(dòng)態(tài)MLP-Mixer檢測頭。

方法

我們簡(jiǎn)單介紹一下我們的AdaMixer檢測器兩個(gè)代表性的創(chuàng )新點(diǎn),以利于讀者迅速抓取到我們方法的脈絡(luò )。有些細節在此忽略了,具體可以查看原文。

自適應的特征采樣位置

圖片

與現在其他方法一樣,我們把query解耦成兩個(gè)向量,分別是內容向量(content vector)和位置向量(positional vector),其中query代表著(zhù)的框可以由位置向量解碼而來(lái)。在每一個(gè)stage,query decoder都會(huì )更新refine這兩個(gè)向量。值得注意的是,我們對位置向量采用的參數化并不是常用框的lrtb坐標或是ccwh坐標,而是xyzr形式,其中z代表著(zhù)框大小的對數,r代表著(zhù)框長(cháng)寬比的對數,這種參數化形式的xyz可以直接讓我們的query可以與多層級特征所形成的3D特征空間進(jìn)行聯(lián)系。如上圖所示,3D特征空間中的query坐標自然由xyz決定,自適應3D特征采樣首先由query根據自己的內容向量生成多組offset,再在3D特征空間上進(jìn)行對應點(diǎn)的插值采樣得到對應的特征,3D特征空間有益于我們的方法統一自適應地學(xué)習目標物體的位置和尺度的變化。注意這一步是不需要任何多尺度交互網(wǎng)絡(luò )的。

自適應的采樣內容解碼

對于一個(gè)query而言上述步驟采集到的特征形狀為  ,其中  為采樣點(diǎn)的個(gè)數,  是通道數量,我們在MLP-Mixer的啟發(fā)下提出了逐query的自適應通道和空間mixing操作(adaptive channel mixing,ACM和adaptive spatial mixing,ASM)。具體來(lái)說(shuō),我們的decoder用動(dòng)態(tài)依賴(lài)于query的權重去沿兩個(gè)維度(通道  和空間 )mixing采集到的特征,由于采集的特征可能來(lái)自于不同層級的特征圖,這樣的mixing操作自然賦予了decoder多尺度交互建模的能力。

圖片

總結構

圖片

我們的AdaMixer****總結構如上圖,雖然看起來(lái)有一點(diǎn)繁瑣,但是在內容向量上的操作基本構造還是和Transformer decoder是一致的,位置向量可以簡(jiǎn)單地視為在一個(gè)stage內參與坐標變換和計算,然后在一個(gè)stage的末尾再更新。

總的AdaMixer檢測器只由兩個(gè)主要部分構成:其一是主干網(wǎng)絡(luò ),其二是我們所提出來(lái)的AdaMixer****,不需要額外的注意力編碼器以及顯式的多尺度建模網(wǎng)絡(luò )。

結果

圖片

實(shí)驗結果在當時(shí)投稿時(shí)還是比較精彩的,在12 epoch的訓練條件下,我們的表現超過(guò)了其他檢測器(包括傳統以及基于query的檢測器),其中N為query的數量,證明了我們的方法的收斂速度和最終效果。而且我們的12 epoch在8卡V100上實(shí)際訓練時(shí)間還是比較快的,只要9小時(shí)。

圖片

在與跟其他query-based檢測器相比下,我們也有更好的表現,而且我們是表中唯一不需要額外的注意力編碼器或者金字塔特征網(wǎng)絡(luò )的模型。

圖片

消融實(shí)驗

我們做了比較豐富的消融實(shí)驗來(lái)驗證我們提出的各個(gè)模塊的有效性。在此,我們選一些有代表性的消融實(shí)驗來(lái)進(jìn)行討論。

圖片

表(a)是對我們方法核心所需的自適應性的探究,不管是采樣位置(loc.)還是解碼內容(cont.)的適應性都對我們最終模型的表現有著(zhù)大幅的影響。

表(b)是對我們提出的adaptive mixing的探究,動(dòng)態(tài)通道混合(ACM)和動(dòng)態(tài)空間混合(ASM)的順序組合是最佳選擇。

表(c)是我們的AdaMixer再加上不同的多尺度交互網(wǎng)絡(luò )的效果,我們很驚訝地發(fā)現不加額外的金字塔網(wǎng)絡(luò )居然效果還比較好,我們猜測可能是因為我們的AdaMixer****自然具有多尺度交互的能力且額外的金字塔網(wǎng)絡(luò )有著(zhù)更多的參數需要更多的訓練時(shí)間來(lái)收斂。

圖片

表8進(jìn)一步探究了3D特征空間采樣。注意到表8中實(shí)驗模型都沒(méi)有配備FPN網(wǎng)絡(luò ),在這種情況下RoIAlign的表現效果較差在我們的情理之中。自適應2D采樣(不學(xué)習z方向上的offset)的模型落后了3D特征空間采樣將近1.5個(gè)AP,說(shuō)明了3D采樣尤其是z方向上學(xué)習offset的必要性。另外,另一個(gè)很有意思的結論是只用C4特征要比C5要好,這可能歸功于C4特征的分辨率較大。而且只用C4特征時(shí),可以把ResNet的后續特征提取階段直接砍掉(因為沒(méi)有FPN,也用不到C5特征圖了),這可能代表著(zhù)此類(lèi)檢測器輕量化可以涉及的方向?我們還未做過(guò)多探究。

總結

我們提出了一個(gè)具有相對簡(jiǎn)單結構、快速收斂且表現不俗的檢測器AdaMixer,通過(guò)改善****對目標物體的自適應解碼能力,我們的AdaMixer無(wú)需引入厚重的注意力編碼器以及顯式的多尺度交互網(wǎng)絡(luò )。我們希望AdaMixer可以作為后續基于query的檢測器簡(jiǎn)單有效的基線(xiàn)模型。

本文僅做學(xué)術(shù)分享,如有侵權,請聯(lián)系刪文。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>