DTG-SSOD:最新半監督檢測框架,Dense Teacher(附論文下載)
論文地址:https://arxiv.org/pdf/2207.05536.pdf
計算機視覺(jué)研究院專(zhuān)欄
作者:Edison_G
“從稀疏到密集”的范式使SSOD的流程復雜化,同時(shí)忽略了強大的直接、密集的教師監督
01
概述
Mean-Teacher (MT) 方案在半監督目標檢測 (SSOD) 中被廣泛采用。在MT中,由教師的最終預測(例如,在非極大抑制 (NMS) 后處理之后)提供的稀疏偽標簽通過(guò)手工制作的標簽分配對學(xué)生進(jìn)行密集監督。然而,“從稀疏到密集”的范式使SSOD的流程復雜化,同時(shí)忽略了強大的直接、密集的教師監督。在今天分享中,研究者嘗試直接利用教師的密集指導來(lái)監督學(xué)生的訓練,即“密集到密集”范式。具體來(lái)說(shuō),研究者提出了逆NMS聚類(lèi)(INC)和秩匹配(RM)來(lái)實(shí)例化密集監督,而無(wú)需廣泛使用的傳統稀疏偽標簽。INC引導學(xué)生在NMS中像老師一樣將候選框分組到集群中,這是通過(guò)學(xué)習在老師的NMS程序中顯示的分組信息來(lái)實(shí)現的。在通過(guò)INC獲得與教師相同的分組方案后,學(xué)生通過(guò)Rank Matching進(jìn)一步模仿教師在聚類(lèi)候選人中的排名分布。通過(guò)提出的INC和RM,將Dense Teacher Guidance集成到半監督目標檢測(稱(chēng)為“DTG-SSOD”)中,成功地放棄了稀疏偽標簽,并在未標記數據上實(shí)現了更多信息學(xué)習。在COCO基準測試中,新方法的DTG-SSOD在各種標記比率下實(shí)現了最先進(jìn)的性能。例如,在10%的標注率下,DTG-SSOD將監督基線(xiàn)從26.9提高到35.9mAP,比之前的最佳方法Soft Teacher高19個(gè)百分點(diǎn)。
02
新框架
教師監督信號的比較:下圖(a)之前的方法對教師進(jìn)行NMS和分數過(guò)濾以獲得稀疏的偽標簽,通過(guò)標簽分配進(jìn)一步轉換為對學(xué)生的密集監督;下圖(b)提出的DTG-SSOD直接采用教師的密集預測作為學(xué)生的密集指導。
Sparse-to-dense ParadigmTask FormulationSSOD的框架如下圖(a)所示。Mean-Teacher方案是以前技術(shù)的常見(jiàn)做法,實(shí)現了端到端的訓練,每次訓練迭代后通過(guò)EMA從學(xué)生構建教師。教師將弱增強(例如翻轉和調整大?。﹫D像作為輸入以生成偽標簽,而學(xué)生則應用強增強(例如剪切、幾何變換)進(jìn)行訓練。強大且適當的數據增強起著(zhù)重要作用,它不僅增加了學(xué)生任務(wù)的難度并緩解了過(guò)度自信的問(wèn)題,而且還使學(xué)生能夠對各種輸入擾動(dòng)保持不變,從而實(shí)現魯棒的表征學(xué)習。
Sparse-to-dense Baseline所有以前的SSOD方法都是基于稀疏到密集的機制,其中生成帶有類(lèi)別標簽的稀疏偽框,以充當學(xué)生訓練的基本事實(shí)。它帶有基于置信度的閾值,其中僅保留具有高置信度(例如,大于0.9)的偽標簽。這使得對未標記數據的前景監督比對標記數據的監督要稀疏得多,因此,類(lèi)不平衡問(wèn)題在SSOD中被放大,嚴重阻礙了檢測器的訓練。
為了緩解這個(gè)問(wèn)題,研究者借鑒了之前工作的一些優(yōu)勢:Soft Teacher將混合比r設置為1/4,以便在每個(gè)訓練批次中采樣更多未標記數據,這使得未標記數據上的前景樣本數接近標記數據;Unbiased Teacher用Focal loss代替了交叉熵損失,從而減少了簡(jiǎn)單示例的梯度貢獻。
這兩個(gè)改進(jìn),即適當的混合比r(1/4)和Focal loss,都被用于稀疏到稠密的基線(xiàn)和研究者的稠密到稠密的DTG 方法。因為老師只提供稀疏偽標簽,進(jìn)一步轉化為對學(xué)生訓練的密集監督,這些方法被稱(chēng)為“稀疏到密集”范式。理論上,新提出的SSOD方法獨立于檢測框架,可以適用于單級和兩級檢測器。為了與以前的作品進(jìn)行公平比較,使用Faster RCNN作為默認檢測框架。
03
實(shí)驗
作為表顯示,在完全標記數據設置下,新提出的DTG-SSOD大大超過(guò)了以前的方法,超越至少1.2mAP。按照之前的的做法,研究者還對標記數據應用了弱增強,并獲得了40.9mAP的強監督基線(xiàn)。即使基于如此強的基線(xiàn),DTG-SSOD仍然獲得了+4.8mAP的最大改進(jìn),達到了45.7mAP,這驗證了新方法在標記數據量較大時(shí)的有效性。
研究者在30k迭代處采用一個(gè)檢查點(diǎn)進(jìn)行分析。稀疏偽標簽提供的學(xué)生訓練標簽和研究者密集的教師指導進(jìn)行了精心比較。(a)sparse-to dense范式和研究者的dense-to-dense范式為學(xué)生樣本帶來(lái)了不同的訓練標簽。(b)老師給高質(zhì)量的候選者分配更高的分數,從而保留精確的框。
一些可視化的例子來(lái)展示新提出的方法相對于傳統的稀疏到密集范式的優(yōu)勢。(a-b)對于相同的學(xué)生提案,新的密集到密集范式和傳統的稀疏到密集范式將分配不同的標簽。很明顯,新的密集到密集范式可以分配更精確和合理的訓練標簽。(c)教師比學(xué)生更擅長(cháng)對集群候選者的關(guān)系建模。
The summary of transformations used in weak and strong augmentation
今天是建軍節,用一張應景的demo結束今天的講解。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。