<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > ECCV 2022|通往數據高效的Transformer目標檢測器

ECCV 2022|通往數據高效的Transformer目標檢測器

發(fā)布人:計算機視覺(jué)工坊 時(shí)間:2022-08-14 來(lái)源:工程師 發(fā)布文章
作者丨encounter1997@知乎(已授權)

來(lái)源丨h(huán)ttps://zhuanlan.zhihu.com/p/545435909編輯丨極市平臺

導讀

 

本文圍繞Detection Transformer數據效率低下的問(wèn)題,通過(guò)逐步的模型轉化找到了影響數據效率的關(guān)鍵因素。作者成功用盡可能小的模型改動(dòng)來(lái)大幅提升現有目標檢測器的數據效率,并提出一種標簽增強策略進(jìn)一步提升其性能讀。


圖片


論文鏈接:https://arxiv.org/abs/2203.09507代碼鏈接:https://github.com/encounter1997/DE-DETRshttps://github.com/encounter1997/DE-CondDETR大家好!本文介紹一下我們中稿今年ECCV的一項工作:Towards Data-Efficient Detection Transformers。對目標檢測模型所需要的數據進(jìn)行標注往往是十分繁重的工作,因為它要求對圖像中可能存在的多個(gè)物體的位置和類(lèi)別進(jìn)行標注。本文旨在減少Detection Transformer類(lèi)目標檢測器對標注數據的依賴(lài)程度,提升其數據效率。Detection Transformer于2020年ECCV被提出,作為一種新興的目標檢測方法,Detection Transformers以其簡(jiǎn)潔而優(yōu)雅的框架取得了越來(lái)越多的關(guān)注。關(guān)于Detection Transformer的細節和后續的發(fā)展歷程,本文并不作展開(kāi)介紹,感興趣的小伙伴可以參考以下知乎文章:DETR目標檢測新范式帶來(lái)的思考 (https://zhuanlan.zhihu.com/p/366938351)

研究動(dòng)機

Detection Transformer的開(kāi)山之作是DETR[1],在常用的目標檢測數據集COCO[2]上,DETR取得了比Faster RCNN[3]更好的性能,但其收斂速度顯著(zhù)慢于基于CNN的檢測器。為此,后續的工作大多致力于提升DETR的收斂性[4,5,6,7]。在COCO數據集上這些后續方法能夠在訓練代價(jià)相當的情況下取得比Faster RCNN更好的性能,表現出了Detection Transformers的優(yōu)越性。圖片圖1:不同目標檢測模型在數據量充足的COCO和小數據集Cityscapes上的性能對比,模型名稱(chēng)下方的數字表示訓練周期數。目前的研究似乎表明Detection Transformers能夠在性能、簡(jiǎn)潔性和通用性等方面全面超越基于CNN的目標檢測器。但我們研究發(fā)現,只有在COCO這樣訓練數據豐富(約118k訓練圖像)的數據集上Detection Transformers能夠表現出性能上的優(yōu)越,而當訓練數據量較小時(shí),大多數Detection Transformers的性能下降顯著(zhù)。如圖1所示,在常用的自動(dòng)駕駛數據集Cityscapes[8](約3k訓練圖像)上,盡管Faster RCNN能夠穩定的取得優(yōu)良的性能,大多數Detection Transformers的性能顯著(zhù)下降。并且盡管不同Detection Transformers在COCO數據集上性能差異不到2AP,它們在小數據集Cityscapes上的性能有大于15AP的顯著(zhù)差異。這些發(fā)現表明Detection Transformers相比于基于CNN的目標檢測器更加依賴(lài)標注數據(data hungry)。然而標注數據的獲得并非易事,尤其是對于目標檢測任務(wù)而言,不僅需要標出多個(gè)物體的類(lèi)別標簽,還需要準備的標出物體的定位框。同時(shí),訓練數據量大,意味著(zhù)訓練迭代次數多,因此訓練Detection Transformers需要消耗更多的算力,增加了碳排放??梢?jiàn),要滿(mǎn)足現有Detection Transformers的訓練要求需要耗費大量的人力物力。

消融探究

圖片表1:從SparseRCNN(表中縮寫(xiě)為SRCN)到DETR的模型轉化為了尋找影響Data-efficiency的關(guān)鍵因素,我們將data efficient的RCNN逐步轉化為data hungry的Detection Transformer檢測器,來(lái)消融不同設計的影響。值得一提的是,ATSS[9]和Visformer[10]采用了類(lèi)似的模型轉化實(shí)驗,但ATSS旨在尋找anchor free檢測器和anchor-based檢測器之間的本質(zhì)區別,Visformer旨在尋找對分類(lèi)任務(wù)有利的transformer backbone結構,而我們致力于尋找影響Detection Transformers數據效率的主要因素。為了從模型轉化中獲得insightful的結果,我們需要選擇合適檢測器展開(kāi)實(shí)驗。綜合一下因素,我們選擇Sparse RCNN和DETR來(lái)展開(kāi)實(shí)驗:(1)它們分別是RCNN和Detection Transformer中有代表性的檢測器;(2)二者有很多相似的地方,比如相同的優(yōu)化器、標簽匹配、損失設計、數據增強和端到端等,這有利于我們盡可能排除其他影響因素的干擾,專(zhuān)注于核心的區別;(3)二者在data efficiency上存在顯著(zhù)差異。模型轉化過(guò)程如表1所示,接下來(lái),我們挑選模型轉化中的關(guān)鍵步驟進(jìn)行介紹:去除FPN。由于CNNs具有局部性,FPN中能夠以較小的計算代價(jià)實(shí)現多尺度特征融合,從而在少量數據的情況下提升目標檢測的性能。對比之下,DETR中的attention機制具有全局感受野,導致其在高分辨率的特征圖上需要消耗大量的運算資源,因此在DETR上做多尺度特征的建模往往是難以實(shí)現的。在本步中,我們去除RCNN中的FPN,并且與DETR一致,我們僅將backbone中32倍下采樣的特征送入檢測頭做RoI Align和后續解碼和預測。和預期的一樣,去除FPN的多尺度建模作用,在50代的訓練周期下模型性能下降顯著(zhù)by 7.3 AP。加入Transformer編碼器。在DETR中,transformer編碼器可以看作是檢測器中的neck,用來(lái)對backbone提取的特征做增強。在去除FPN neck后,我們將DETR的編碼器加入模型得到表1中的Net3。有趣的是,Net3在50個(gè)訓練周期下的性能下降,而在300個(gè)訓練周期下性能有所提升。我們猜想像ViT[11]一樣,****中的attention具有平方復雜度,因此需要更長(cháng)的訓練周期來(lái)收斂并體現其優(yōu)勢。將動(dòng)態(tài)卷積替換為自注意力機制。SparseRCNN中一個(gè)非常有趣的設計是****中的動(dòng)態(tài)卷積,它的作用和DETR中的cross-attention作用十分相似,即根據圖像特征和特定object candidate的相似性,自適應地將圖像中的信息聚合到object candidate中。在本步驟中,我們將動(dòng)態(tài)替換為cross-attention,對應的結果如表中Net4所示。反直覺(jué)的,參數量大并不一定會(huì )使模型更依賴(lài)數據。事實(shí)上,含有大量參數的動(dòng)態(tài)卷積能夠比參數量很小的cross-attention表現出了更好的數據效率。去除RoIAlign。SparseRCNN和RCNNs family中的其他檢測器一樣根據目標檢測的候選框對圖像中指定區域的特征做采樣,再基于采樣后的特征做預測。對比之下,DETR中content query直接從圖像的全局特征中聚合特定物體的信息。在本步驟,我們去除RoI Align操作??梢钥吹?,模型的性能發(fā)生了顯著(zhù)下降。我們猜想從全局特征中學(xué)習如何關(guān)注到包含特定物體的局部區域是non-trivial的,因此模型需要從更多的數據和訓練周期中學(xué)習到locality的特性。而在見(jiàn)過(guò)的數據量小的情況下性能會(huì )顯著(zhù)下降。去除初始的proposal。最后,DETR直接預測normalized檢測框中心坐標和寬度和高度,而RCNNs預測gt檢測框相較于初始proposal檢測框的offsets。在本步驟中,我們消除此差異。這一微小的區別使得模型性能顯著(zhù)下降,我們猜想這是因為初始的proposal能夠作為一種空間位置上的先驗,幫助模型關(guān)注特定的物體區域,從而降低了從大量數據中學(xué)習關(guān)注局部區域的需要。總結: 綜上,可以看出以下因素對模型的data efficiency其關(guān)鍵作用:(1)從局部區域的稀疏特征采樣,例如采用RoIAlign;(2)多尺度特征融合,而這依賴(lài)于稀疏特征采樣使得其運算量變得可接受;(3)相較于初始的空間位置先驗作預測。其中(1)和(3)有利于模型關(guān)注到特定的物體區域,緩解從大量數據中學(xué)習locality的困難。(2)有利于充分利用和增強圖像的特征,但其也依賴(lài)于稀疏特征。值得一提的是,在DETR family中,Deformable DETR[4]是一個(gè)特例,它具有較好的數據效率。而我們基于Sparse RCNN和DETR的模型轉化實(shí)驗得到的結論同樣也能夠說(shuō)明為什么Deformable DETR的具有較好的數據集效率:Multi-scale Deformable Attention從圖像局部區域內做特征的稀疏采樣,并運用了多尺度特征,同時(shí)模型的預測是相對于初始的reference point的。

我們的方法模型增強

圖片

圖2:我們的數據高效Detection Transformer模型結構。我們力求在盡可能少改動(dòng)原模型的情況下,提升其數據效率。模型的backbone、transformer編碼器和第一個(gè)****層均未變化

局部特征采樣。從模型轉化中的分析中可以看出,從局部物體區域做特征采樣對實(shí)現數據效率是至關(guān)重要的。幸運的是,在Detection Transformer中,由于Deep Supervision[12]的存在,每一層****層中都為我們提供了物體檢測框的信息。因此,我們可以在不引入新的參數的情況下,借助這些物體定位框來(lái)做局部特征采樣。盡管可以采用更成熟的特征采用方法,我們采用最常用的RoI Align。從第二層****層開(kāi)始,我們借助前一層****的輸出來(lái)做稀疏特征采樣。迭代式預測和初始參考點(diǎn)。此外,Detection Transformer中級聯(lián)的結構很自然地適合使用迭代式的檢測框refinement來(lái)提升檢測的性能。我們在模型轉換中的實(shí)驗也表明,迭代式的預測以及相對于初始的空間參考做預測有利于實(shí)現更準確的目標檢測。為此,我們引入檢測框的迭代式refinement和初始參考點(diǎn)。多尺度特征融合。多尺度特征的運用有利于特征的高效利用,能夠在數據量小的情況下提升檢測性能。而我們的稀疏特征采樣也使得在Detection Transformer中使用多尺度特征成為可能。盡管更成熟的多尺度融合技術(shù)可能被使用,我們僅僅利用bbox作為指導,對不同尺度的特征做RoIAlign,并將得到的序列concatenate在一起。

標簽增強

圖片圖3:(a)現有Detection Transformer的標簽分配方式;(b)使用標簽增強后的標簽分配。圓圈和矩形框分別表示模型的預測和圖片上的物體標注。通過(guò)復制橙色方框表示的物體標注,藍色圓圈表示的模型預測也在標簽分配中匹配到了正樣本,因此得到了更豐富的監督信號。盡管一對一的標簽匹配形式簡(jiǎn)單,并能夠避免去重過(guò)程,但也使得在每次迭代中,只有少量的檢測候選能夠得到有效的監督。模型不得不從更大量的數據或者更多的訓練周期中獲得足夠的監督信號。為了解決這一問(wèn)題,我們提出一種標簽增強策略,通過(guò)在二分圖匹配過(guò)程中重復正樣本,來(lái)為Detection Transformer提供更豐富的監督信號,如圖3所示。在實(shí)現過(guò)程中,我們考慮兩種不同的方式來(lái)復制正樣本的標簽:(1)固定重復次數(Fixed Repeat Time):我們對所有正樣本標簽重復相同的次數;(2)固定正負樣本標簽的比例(Fixed positive-negative ratio):我們對正樣本的標簽進(jìn)行重復采樣,最終保證標簽集合中正樣本的比例固定。默認的,我們采用固定重復兩次的標簽增強方式。

實(shí)驗

圖片表2:不同方法在小數據集Cityscapes上的性能比較在本部分,我們首先將我們的方法和現有的Detection Transformer進(jìn)行比較。如表2所示,大部分Detection Transformer面臨數據效率低下的問(wèn)題。而我們的DE-CondDETR在對CondDETR模型做微小改動(dòng)的情況下能夠取得和Deformable DETR相當的數據效率。而輔助以標簽增強提供的更豐富的監督,我們的DELA-CondDETR能夠取得比Deformable DETR更佳的性能。同樣的,我們的方法也能夠與其他Detection Transformer結合來(lái)顯著(zhù)提升其data efficiency,例如我們的DE-DETR和DElA-DETR能夠在以?xún)H僅50周期取得比DETR 500個(gè)周期要顯著(zhù)優(yōu)越的性能。圖片圖4:不同方法在下采樣的COCO數據集上的性能比較。橫軸表示數據下采樣的比例(對數scale)。此外我們對COCO 2017中的訓練數據進(jìn)行訓練圖像0.1,0.05,0.02和0.01倍的采樣,來(lái)觀(guān)察模型在不同數據量下的性能。如圖4所示,在不同的訓練數據量下,我們的方法始終能夠取得顯著(zhù)優(yōu)于基線(xiàn)方法的性能。特別的,僅用0.01倍的數據DELA-DETR的性能顯著(zhù)優(yōu)于使用五倍數據的DETR基線(xiàn)。類(lèi)似的,DELA-CondDETR性能始終優(yōu)于用兩倍數據訓練的CondDETR基線(xiàn)。圖片表3:對模型中不同組件的消融實(shí)驗我們首先消融我們方法中各個(gè)模塊的作用,如表3所示。使用局部特征采樣和多尺度特征均能夠顯著(zhù)提升模型的性能,分別帶來(lái)8.3 AP和6.4 AP的提升。此外,使用標簽增強能夠進(jìn)一步帶來(lái)2.7 AP的性能提升。并且單獨使用標簽增強也能夠帶來(lái)2.6的性能提升。圖片對標簽增強的消融研究如方法部分中討論的,我們考慮了兩種標簽增強策略。包括固定重復次數和固定正負樣本比例。在本部分,我們對這兩種策略進(jìn)行消融。如上表中左表所示,使用不同的固定重復倍數均能夠提升DE-DETR的性能,但隨重復次數增加,性能提升呈下降趨勢。我們默認采用重復正樣本標簽2次。此外,如右表所示,盡管使用不同正負樣本比例均能帶來(lái)性能提升,在正負樣本比例為1:3時(shí),其取得的性能最佳,有趣的是,這也是RCNN系列檢測器如Faster RCNN中最常用正負樣本采樣比例。圖片在訓練數據充足的COCO 2017上的性能比較,所有模型都訓練50個(gè)周期盡管以上實(shí)驗說(shuō)明了我們的方法能夠在數據量有限的情況下顯著(zhù)提升模型性能,它并不能表明我們的方法在數據量充足時(shí)依然有效。為此,我們在數據量充足的COCO2017上測試我們方法的性能。有趣的是,我們的方法不僅不會(huì )降低模型在COCO 2017上的性能,還能帶來(lái)不小的提升。具體來(lái)說(shuō),DELA-DETR和DELA-CondDETR分別相較于它們的baseline提升8.1AP和2.8AP。圖片圖5:不同模型在Cityscapes數據集上的收斂曲線(xiàn),橫軸表示訓練周期數,縱軸表示mAP最后,為了對本文方法帶來(lái)的性能提升有一個(gè)直觀(guān)的感受,我們提供了不同DETR變種在Cityscapes數據集上的收斂曲線(xiàn),如圖5所示??梢钥闯?,我們的方法能夠以更少的訓練代價(jià)取得更加優(yōu)越的性能,展示了其優(yōu)越的數據效率。更多實(shí)驗結果請參考原文及其附加材料。

總結

在本文中,我們指出了Detection Transformer數據效率低下的問(wèn)題,并通過(guò)逐步的模型轉化找了影響數據效率的關(guān)鍵因素。隨后,我們以盡可能小的模型改動(dòng)來(lái)大幅提升現有Detection Transformer的數據效率,并提出一種標簽增強策略進(jìn)一步提升其性能。隨著(zhù)Transformer在視覺(jué)任務(wù)中越發(fā)流行,我們希望我們的工作能夠激發(fā)社區探究和提升Transformer在不同任務(wù)上的數據效率。
參考文獻

  1. End-to-end Object Detection with Transformers

  2. Microsoft COCO: Common Objects in Context

  3. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

  4. Deformable DETR: Deformable Transformers for End-to-End Object Detection

  5. Conditional DETR for Fast Training Convergence

  6. PnP-DETR: Towards Efficient Visual Analysis with Transformers

  7. Fast Convergence of DETR with Spatially Modulated Co-Attention

  8. The Cityscapes Dataset for Semantic Urban Scene Understanding

  9. Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection

  10. Visformer: The Vision-Friendly Transformer

  11. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

  12. Deeply-Supervised Nets


本文僅做學(xué)術(shù)分享,如有侵權,請聯(lián)系刪文。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>