PPCNN:細粒度特征提取和定位用于目標檢測
近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò )在計算機視覺(jué)上取得了優(yōu)異的性能。深度卷積神經(jīng)網(wǎng)絡(luò )以精確地分類(lèi)目標信息而聞名,并采用了簡(jiǎn)單的卷積體系結構來(lái)降低圖層的復雜性。今天給大家分享一個(gè)簡(jiǎn)單的檢測網(wǎng)絡(luò )。
1簡(jiǎn)要
近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò )在計算機視覺(jué)上取得了優(yōu)異的性能。深度卷積神經(jīng)網(wǎng)絡(luò )以精確地分類(lèi)目標信息而聞名,并采用了簡(jiǎn)單的卷積體系結構來(lái)降低圖層的復雜性?;谏疃染矸e神經(jīng)網(wǎng)絡(luò )概念設計的VGG網(wǎng)絡(luò )。VGGNet在對大規模圖像進(jìn)行分類(lèi)方面取得了巨大的性能。該網(wǎng)絡(luò )設計了一堆小卷積濾波器,使網(wǎng)絡(luò )結構非常簡(jiǎn)單,但網(wǎng)絡(luò )有一些定位錯誤。
就有研究者提出了獨特的網(wǎng)絡(luò )架構,PPCNN(金字塔池化卷積神經(jīng)網(wǎng)絡(luò )),以減少定位誤差,并提取高級特征圖。該網(wǎng)絡(luò )由改進(jìn)的VGGNet和U-shape特征金字塔網(wǎng)絡(luò )組成。介紹了一種提取和收集目標的小特征信息并從源圖像中檢測小物體的網(wǎng)絡(luò )。該方法在定位和檢測任務(wù)中取得了更高的精度。
2 背景
Facebook的特征金字塔網(wǎng)絡(luò )Feature Pyramid Networks(FPN)。FPN主要解決的是物體檢測中的多尺度問(wèn)題,通過(guò)簡(jiǎn)單的網(wǎng)絡(luò )連接改變,在基本不增加原有模型計算量情況下,大幅度提升了小物體檢測的性能。我們將從論文背景,論文思想,結果與結論幾方面探討此論文。
在物體檢測里面,有限計算量情況下,網(wǎng)絡(luò )的深度(對應到感受野)與stride通常是一對矛盾的東西,常用的網(wǎng)絡(luò )結構對應的stride一般會(huì )比較大(如32),而圖像中的小物體甚至會(huì )小于stride的大小,造成的結果就是小物體的檢測性能急劇下降。傳統解決這個(gè)問(wèn)題的思路包括:
多尺度訓練和測試,又稱(chēng)圖像金字塔,如圖1(a)所示。目前幾乎所有在ImageNet和COCO檢測任務(wù)上取得好成績(jì)的方法都使用了圖像金字塔方法。然而這樣的方法由于很高的時(shí)間及計算量消耗,難以在實(shí)際中應用。
特征分層,即每層分別預測對應的scale分辨率的檢測結果。如圖1(c)所示。SSD檢測框架采用了類(lèi)似的思想。這樣的方法問(wèn)題在于直接強行讓不同層學(xué)習同樣的語(yǔ)義信息。而對于卷積神經(jīng)網(wǎng)絡(luò )而言,不同深度對應著(zhù)不同層次的語(yǔ)義特征,淺層網(wǎng)絡(luò )分辨率高,學(xué)的更多是細節特征,深層網(wǎng)絡(luò )分辨率低,學(xué)的更多是語(yǔ)義特征。
因而,目前多尺度的物體檢測主要面臨的挑戰為:
如何學(xué)習具有強語(yǔ)義信息的多尺度特征表示?
如何設計通用的特征表示來(lái)解決物體檢測中的多個(gè)子問(wèn)題?如object proposal, box localization, instance segmentation.
如何高效計算多尺度的特征表示?
針對這些問(wèn)題,提出了特征金字塔網(wǎng)絡(luò )FPN,如上圖(d)所示,網(wǎng)絡(luò )直接在原來(lái)的單網(wǎng)絡(luò )上做修改,每個(gè)分辨率的feature map引入后一分辨率縮放兩倍的feature map做element-wise相加的操作。通過(guò)這樣的連接,每一層預測所用的feature map都融合了不同分辨率、不同語(yǔ)義強度的特征,融合的不同分辨率的feature map分別做對應分辨率大小的物體檢測。這樣保證了每一層都有合適的分辨率以及強語(yǔ)義特征。同時(shí),由于此方法只是在原網(wǎng)絡(luò )基礎上加上了額外的跨層連接,在實(shí)際應用中幾乎不增加額外的時(shí)間和計算量。將FPN應用在Faster RCNN上的性能,在COCO上達到了state-of-the-art的單模型精度。
具體而言,FPN分別在RPN和Fast RCNN兩步中起到作用。其中RPN和Fast RCNN分別關(guān)注的是召回率和正檢率,在這里對比的指標分別為Average Recall(AR)和Average Precision(AP)。分別對比了不同尺度物體檢測情況,小中大物體分別用s,m,l表示。
在RPN中,區別于原論文直接在最后的feature map上設置不同尺度和比例的anchor,本文的尺度信息對應于相應的feature map(分別設置面積為32^2, 64^2, 128^2, 256^2, 512^2),比例用類(lèi)似于原來(lái)的方式設置{1:2, 1:1,, 2:1}三種。
與RPN一樣,FPN每層feature map加入3*3的卷積及兩個(gè)相鄰的1*1卷積分別做分類(lèi)和回歸的預測。在RPN中,實(shí)驗對比了FPN不同層feature map卷積參數共享與否,發(fā)現共享仍然能達到很好性能,說(shuō)明特征金字塔使得不同層學(xué)到了相同層次的語(yǔ)義特征。
3 新框架
金字塔池化網(wǎng)絡(luò )允許從不同卷積層中的多尺度特征作為輸入,并提取相同尺度的輸出特征圖,如上圖所示。研究者提出了用VGGNet在u-shape特征金字塔網(wǎng)絡(luò )中構建的改進(jìn)的網(wǎng)絡(luò )架構來(lái)提取高級特征圖。該特征金字塔網(wǎng)絡(luò )的特征提取過(guò)程如下圖所示。
4 實(shí)驗
可視化結果:
Experimental results of conventional VGG network and proposed PPCNN (VGG network with u-shape feature pyramid network) on MS COCO dataset. The top row contains results of the conventional VGG network, and the bottom row contains the detection results of the proposed network.
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
低通濾波器相關(guān)文章:低通濾波器原理
高通濾波器相關(guān)文章:高通濾波器原理 數字濾波器相關(guān)文章:數字濾波器原理