多尺度深度特征(下):多尺度特征學(xué)習才是目標檢測精髓
深度特征學(xué)習方案將重點(diǎn)從具有細節的具體特征轉移到具有語(yǔ)義信息的抽象特征。它通過(guò)構建多尺度深度特征學(xué)習網(wǎng)絡(luò ) (MDFN) 不僅考慮單個(gè)對象和局部上下文,還考慮它們之間的關(guān)系。
1 前景回顧
如果想詳細知道上集我們具體說(shuō)了多尺度特征的重要性及其發(fā)展,請點(diǎn)擊下方鏈接,查閱相關(guān)內容:
多尺度深度特征(上):多尺度特征學(xué)習才是目標檢測精髓(干貨滿(mǎn)滿(mǎn),建議收藏)
SSD框架
ASPP網(wǎng)絡(luò )
Cascaded
我們“計算機視覺(jué)研究院”還分享了更多與目標檢測相關(guān)的干貨及實(shí)踐內容,有興趣的同學(xué)可以查看歷史消息,也可以從下方部分鏈接中進(jìn)入:
CVPR21小樣本檢測:蒸餾&上下文助力小樣本檢測(代碼已開(kāi)源)
ICCV 2021:煉丹師的福音,訓練更快收斂的絕佳方案(附源代碼)
ICCV2021目標檢測:用圖特征金字塔提升精度(附論文下載)
Pad-YoloV5:在便攜終端上實(shí)時(shí)檢測不再是難題
高斯YoloV3目標檢測(文中供源碼鏈接)
Yolo輕量級網(wǎng)絡(luò ),超輕算法在各硬件可實(shí)現工業(yè)級檢測效果(附源代碼)
不再只有Yolo,現在輕量級檢測網(wǎng)絡(luò )層出不窮(框架解析及部署實(shí)踐)
2 新框架
那我們現在接著(zhù)上一期的繼續說(shuō)多尺度深度特征學(xué)習。
上一期我們得出的結論是:淺層和深層的特征對于目標識別和定位起著(zhù)必不可少的作用。為了有效地利用檢測到的特征信息,應考慮另一約束條件,以防止特征被改變或覆蓋。
新框架提出了一種創(chuàng )新的目標檢測器,它利用在高級層中學(xué)習到的深層特征。與較早層產(chǎn)生的特征相比,深層特征更擅長(cháng)表達語(yǔ)義和上下文信息。所提出的深度特征學(xué)習方案將重點(diǎn)從具有細節的具體特征轉移到具有語(yǔ)義信息的抽象特征。它通過(guò)構建多尺度深度特征學(xué)習網(wǎng)絡(luò ) (MDFN) 不僅考慮單個(gè)目標和局部上下文,還考慮它們之間的關(guān)系。MDFN通過(guò)將信息平方和立方初始模塊引入高層來(lái)有效地檢測目標,它采用參數共享來(lái)提高計算效率。
MDFN通過(guò)集成多邊界框、多尺度和多層次技術(shù)提供多尺度目標檢測器。盡管MDFN采用了一個(gè)具有相對較小基礎網(wǎng)絡(luò )(VGG-16)的簡(jiǎn)單框架,但與具有更深或極寬的宏觀(guān)層次結構的具有更強特征提取能力的那些相比,它獲得了更好或具有競爭力的檢測結果。所提出的技術(shù)在KITTI、PASCAL VOC和COCO數據集上進(jìn)行了廣泛的評估,在KITTI上取得了最佳結果,在PASCAL VOC和COCO上取得了領(lǐng)先的性能。這項研究表明,深層特征提供了突出的語(yǔ)義信息和各種上下文內容,這有助于其在檢測小目標或被遮擋目標方面的卓越性能。此外,MDFN 模型計算效率高,在精度和速度之間取得了很好的平衡。
Deep feature learning inception modules
深度特征學(xué)習初始模塊捕獲來(lái)自基礎網(wǎng)絡(luò )的直接輸出。新框架的基本初始模塊通過(guò)激活多尺度感受野來(lái)充分利用深度特征圖。在每個(gè)模塊中,通過(guò)1×1過(guò)濾直接利用來(lái)自前一層的輸出特征信息。然后進(jìn)行3×3、5×5和7×7過(guò)濾以激活特征圖上的各種感受野,從而在相應的輸入圖像上捕獲不同范圍的場(chǎng)景。
研究者在實(shí)踐中僅使用1×1和3×3濾波器實(shí)現多尺度濾波,以盡量減少參數數量。為高層構建了兩種類(lèi)型的冪運算初始模塊:一種是信息方初始模塊,另一種是信息立方初始模塊,如上圖所示。通過(guò)為不同的過(guò)濾器分配權重來(lái)構建這兩個(gè)模塊:在以下等式中給出:
上表達式實(shí)際上可以分別通過(guò)以下信息平方和三次運算來(lái)近似。
Parameter Sharing:
通過(guò)共享參數,可以有效地實(shí)現所提出的信息平方和立方初始模塊。例如,通過(guò)從5×5單元的第一個(gè)3×3過(guò)濾器中提取輸出并將其與3×3過(guò)濾單元的并行輸出連接起來(lái),在3×3和5×5過(guò)濾單元之間共享參數。然后,3×3過(guò)濾操作的輸出通道數量隱式加倍,而過(guò)濾器集僅使用一次,如上圖(b)中的紅色箭頭所示。這種參數共享可以進(jìn)一步用于cubic inception模塊,如上圖(c)所示。3×3濾波操作的輸出分別來(lái)自3×3、5×5和7×7濾波單元,如上圖(c)中三個(gè)紅色箭頭所示。同樣,5×5濾波操作的輸出分別來(lái)自5×5和7×7濾波單元,如兩個(gè)綠色箭頭所示。
Multi-Scale object detection scheme
在新框架模型中,給每個(gè)給定位置k個(gè)邊界框,計算c類(lèi)分數和每個(gè)邊界框四個(gè)頂點(diǎn)相對于默認邊界框的四個(gè)偏移量。最終,為特征圖內的每個(gè)位置提供了總共k(c + 4)個(gè)過(guò)濾器。因此,每個(gè)尺寸為m×n的特征圖的輸出數量應為k(c + 4)mn。已證實(shí),使用各種默認的框形狀將有助于為單發(fā)網(wǎng)絡(luò )預測框的任務(wù),從而提高了目標定位和分類(lèi)的準確性。 研究者采用這種多邊界框技術(shù)作為多尺度方案的第一個(gè)屬性。
深度特征學(xué)習起始模塊被應用在四個(gè)連續的高級層單元中。這四個(gè)層單元將其輸出深度特征直接傳輸到最終預測層,這將信息傳輸完全縮短。
從訓練的角度來(lái)看,這些縮短的連接使網(wǎng)絡(luò )的輸入和輸出彼此更接近,這有益于模型的訓練。高級層和最終預測層之間的直接連接緩解了梯度消失的問(wèn)題,并增強了特征傳播。另一方面,四個(gè)高級層單元的序列通過(guò)語(yǔ)義和上下文信息獲取兩種方式最大化了深度特征提取和表示的能力。首先,它使后三個(gè)高層從先前的較低層獲取上下文信息。其次,同一級別的層可以提供不同范圍的上下文信息,以及可以在當前層輸出中自然構建的更精確的語(yǔ)義表達。這個(gè)過(guò)程是多尺度方案的第二個(gè)特性。
研究者使用多尺度過(guò)濾器來(lái)激活各種大小的感受野,以增強語(yǔ)義和上下文信息的提取。要注意的另一個(gè)方面是要素圖的大小。在大多數網(wǎng)絡(luò )中,特征圖的大小會(huì )隨著(zhù)深度的增加而逐漸減小。這考慮到系統的內存有限以及功能的比例不變。因此,由于其輸入特征圖的分辨率比在較早的層中產(chǎn)生的分辨率小得多,因此在網(wǎng)絡(luò )深處接受的多尺度濾波器將具有較少的計算負擔。這抵消了濾波操作增加帶來(lái)的計算負擔。這是擬議的多尺度方案的第三個(gè)特性。
Layer structure of deep inception module
提出了兩種深度特征學(xué)習網(wǎng)絡(luò )體系結構,分別成為MDFN-I1和MDFN-I2. 它們都具有四個(gè)high-level deep feature Inception單元。
3 實(shí)驗及可視化
Average precision(%) on KITTI validation set
from left to right, represent the results from SSD, MDFN-I1 and MDFN-I2
PASCAL VOC2007 test detection results
Detection results on COCO test-dev
從上往下分別是SSD、MDFN-I1和MDFN-I2檢測結果
基于作者提出的框架,在pytorch框架中實(shí)現了作者的基本思想,在COCO數據集中簡(jiǎn)單訓練,最終結果比SSD結果好一點(diǎn),具體效果如下:
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。