CVPR小樣本檢測:蒸餾&上下文助力小樣本檢測
目標檢測現在的框架越來(lái)越多,我們“計算機視覺(jué)研究院”最近也分享了眾多的目標檢測框架!今天我們繼續分享一個(gè)最新的檢測框架——YOLOR。
論文:https://arxiv.org/pdf/2103.17115.pdf
開(kāi)源代碼: https://github.com/hzhupku/DCNet
前言
傳統的基于深度學(xué)習的目標檢測方法需要大量的邊界框標注數據進(jìn)行訓練,獲得如此高質(zhì)量的標注數據成本很高。少樣本目標檢測,學(xué)習適應只有少數帶注釋的例子的新類(lèi),非常具有挑戰性,因為新目標的細粒度特征很容易被忽略,而只有少數可用數據。
為了充分利用帶注釋的新目標的特征并捕獲查詢(xún)對象的細粒度特征,研究者提出了具有稠密關(guān)系蒸餾與上下文感知聚合來(lái)解決Few-Shot檢測問(wèn)題。Dense Relation Distillation 模塊建立在基于元學(xué)習的框架之上,旨在充分利用支持特征,其中支持特征和查詢(xún)特征密集匹配,以前向傳播方式覆蓋所有空間位置。引導信息大量使用賦予了模型處理常見(jiàn)挑戰(例如外觀(guān)變化和遮擋)的能力。此外,為了更好地捕捉尺度感知特征,上下文感知聚合模塊自適應地利用來(lái)自不同尺度的特征以獲得更全面的特征表示。
2
背景
先前對Few-Shot物體檢測的研究主要由兩組組成。他們中的大多數采用基于元學(xué)習的框架來(lái)為特定于類(lèi)的預測執行特征重新加權。而【Frustratingly simple few-shot object detection】采用兩階段微調方法,僅微調最后一層檢測器并實(shí)現最先進(jìn)的性能?!?/span>Multi-scale positive sample refinement for few-shot object detection】也使用類(lèi)似的策略并專(zhuān)注于小樣本檢測中的尺度變化問(wèn)題。
然而,由于小樣本對象檢測的挑戰性,上述方法通常存在一些缺點(diǎn)。首先,在之前的小樣本檢測工作中,支持特征和查詢(xún)特征之間的關(guān)系幾乎沒(méi)有被充分探索,其中支持特征的全局池化操作主要用于調制查詢(xún)分支,這容易丟失詳細的局部上下文。具體來(lái)說(shuō),物體的外觀(guān)變化和遮擋很常見(jiàn),如上圖所示。如果沒(méi)有提供足夠的判別信息,模型就無(wú)法學(xué)習類(lèi)別和邊界框預測的關(guān)鍵特征。其次,盡管尺度變化問(wèn)題在之前的工作中得到了廣泛的研究,但它仍然是小樣本檢測任務(wù)中的一個(gè)嚴重障礙。在少樣本設置下,具有尺度感知改變的特征提取器傾向于過(guò)度擬合,導致基類(lèi)和新類(lèi)的性能下降。
Few-Shot Object Detection
小樣本目標檢測旨在僅提供一些帶注釋的訓練示例,從新類(lèi)別中檢測目標。LSTD和RepMet采用通用的遷移學(xué)習框架,通過(guò)將預訓練的檢測器適應少數場(chǎng)景來(lái)減少過(guò)度擬合。
Meta YOLO
最近,Meta YOLO使用YOLO v2設計了一種新穎的小樣本檢測模型,該模型學(xué)習可泛化的元特征,并通過(guò)從支持示例中生成特定于類(lèi)的激活系數來(lái)自動(dòng)重新加權新類(lèi)的特征。
Meta R-CNN
Meta R-CNN和FsDetView使用基礎檢測器執行與Faster RCNN類(lèi)似的過(guò)程。TFA通過(guò)僅在第二階段微調分類(lèi)器來(lái)簡(jiǎn)單地執行兩階段微調方法,并獲得更好的性能。MPSR提出了多尺度正樣本細化來(lái)處理尺度方差問(wèn)題。CoAE提出了非局部RPN,并通過(guò)與其他跟蹤方法進(jìn)行比較,從跟蹤的角度專(zhuān)注于單次檢測。
而今天分享的方法以更直接的方式對主干提取的特征進(jìn)行交叉注意,目標在Few-Shot檢測任務(wù)。FSOD提出了注意力RPN、多關(guān)系檢測器和對比訓練策略來(lái)檢測新對象。在新框架工作中,采用了與Meta R-CNN類(lèi)似的基于元學(xué)習的框架,并進(jìn)一步提高了性能。此外,使用提出的方法,可以成功刪除特定于類(lèi)的預測過(guò)程,從而簡(jiǎn)化整個(gè)過(guò)程。
3
新框架
DCNet
如下圖所示,展示了具有上下文感知特征聚合 (CFA) 模塊的密集關(guān)系蒸餾 (DRD) 模塊,以充分利用支持特征并捕獲必要的上下文信息。這兩個(gè)提出的組件構成了最終模型DCNet。研究者將首先描述所提出的DRD模塊的架構。然后將帶出CFA模塊的細節。
Dense Relation Distillation Module
給定查詢(xún)圖像和支持集,通過(guò)將它們輸入共享特征提取器來(lái)生成查詢(xún)和支持特征。密集關(guān)系蒸餾(DRD)模塊的輸入是查詢(xún)特征和支持特征。這兩個(gè)部分首先通過(guò)專(zhuān)用的深度編碼器編碼成鍵和值映射對。查詢(xún)編碼器和支持編碼器采用相同的結構,但不共享參數。
Relation Distillation。在獲取查詢(xún)和支持特征的鍵/值映射后,進(jìn)行關(guān)系蒸餾。如上圖所示,支持特征值映射的軟權重是通過(guò)測量查詢(xún)特征的關(guān)鍵映射和支持特征之間的相似性來(lái)計算的。
Context-aware Feature Aggregation
如上圖所示,研究者為每個(gè)由兩個(gè)塊組成的特征添加一個(gè)注意力分支。第一個(gè)塊包含全局平均池化。第二個(gè)包含兩個(gè)連續的fc層。之后,向生成的權重添加softmax歸一化,以平衡每個(gè)特征的貢獻。那么聚合特征的最終輸出就是三個(gè)特征的加權求和。
Learning Strategy
4
實(shí)驗及可視化
Few-shot object detection performance on VOC 2007 test set of PASCAL VOC dataset
(a). Visualizations of features before and after dense relation distillation module. (b). Visualizations of effect of context-aware feature aggregation module.
消融研究以評估提出的方法中不同組件的有效性
Few-shot object detection performance on COCO minival of MS COCO dataset
在coco中篩選了少量的數據集,基于源碼訓練10個(gè)epoch,效果還是不行??!可能我數據集選的太少了還有就是訓練啥都沒(méi)有改,主要想快速看下具體效果及檢測精度。有興趣的同學(xué)自行去操作實(shí)踐下!
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。