ICCV-目標檢測:用圖特征金字塔提升精度(附論文下載)
特征金字塔在需要多尺度特征的圖像理解任務(wù)中已被證明是強大的。多尺度特征學(xué)習的最新方法側重于使用具有固定拓撲結構的神經(jīng)網(wǎng)絡(luò )跨空間和尺度執行特征交互。
開(kāi)源代碼:https://arxiv.org/pdf/2108.00580.pdf
1 前言&背景
特征金字塔在需要多尺度特征的圖像理解任務(wù)中已被證明是強大的。多尺度特征學(xué)習的最新方法側重于使用具有固定拓撲結構的神經(jīng)網(wǎng)絡(luò )跨空間和尺度執行特征交互。
在今天分享中,研究者提出了圖特征金字塔網(wǎng)絡(luò ),該網(wǎng)絡(luò )能夠使其拓撲結構適應不同的內在圖像結構,并支持跨所有尺度的同步特征交互。
2 特征金字塔
特征金字塔網(wǎng)絡(luò )相當于先進(jìn)行傳統的bottom-up自上而下的特征卷積,然后FPN試圖融合左側特征圖的相鄰的特征圖。左側模型叫bottom-up,右側模型叫top-down,橫向的箭頭叫橫向連接lateral connections。這么做的目的是因為高層的特征語(yǔ)義多,低層的特征語(yǔ)義少但位置信息多。
左側模型特征圖大小相差1倍,但像AlexNet一樣,其實(shí)是每在同樣大小的feature上卷積幾次才進(jìn)行一次池化操作,我們把在同樣大小feature上的卷積稱(chēng)之為一個(gè)stage。上圖畫(huà)的圖是每個(gè)stage的最后一個(gè)卷積層,因為每個(gè)stage的最后一層feature語(yǔ)義信息最多。
具體做法是兩個(gè)特征層的較高層特征2倍上采樣(上采樣方法很多,上采樣幾乎都是采用內插值方法,即在原有圖像像素的基礎上在像素點(diǎn)之間采用合適的插值算法插入新的元素,總之是把feature大小擴大了一倍)。較低層特征通過(guò)1×1卷積改變一下低層特征的通道數,然后簡(jiǎn)單地把將上采樣和1×1卷積后的結果對應元素相加。為什么橫向連接要使用1×1卷積呢,為什么不能原地不動(dòng)地拿過(guò)來(lái)呢?原來(lái)在于作者想用1×1改變通道數,以達到各個(gè)level處理結果的channel都為256-d,便于后面對加起來(lái)的特征進(jìn)行分類(lèi)。
3、新框架分析
首先為每個(gè)輸入圖像定義一個(gè)特定于圖像的超像素層次結構,以表示其固有的圖像結構。圖特征金字塔網(wǎng)絡(luò )從這個(gè)超像素層次結構繼承了它的結構。上下文層和hierarchical層旨在實(shí)現相同尺度內和不同尺度之間的特征交互。為了使這些層更強大,研究者通過(guò)卷積神經(jīng)網(wǎng)絡(luò )的全局通道注意力,為圖神經(jīng)網(wǎng)絡(luò )引入了兩種類(lèi)型的局部通道注意力。提出的圖特征金字塔網(wǎng)絡(luò )可以增強卷積特征金字塔網(wǎng)絡(luò )的多尺度特征。
主要貢獻:
提出了一種新的圖特征金字塔網(wǎng)絡(luò ),利用固有的圖像結構,支持所有尺度的同時(shí)特征交互。該圖特征金字塔網(wǎng)絡(luò )繼承了輸入圖像的超像素層次結構。上下文層和hierarchical層的設計分別是為了促進(jìn)相同規模內和跨不同規模的特性交互;
在現有的卷積神經(jīng)網(wǎng)絡(luò )全局通道注意機制的基礎上,進(jìn)一步引入了圖神經(jīng)網(wǎng)絡(luò )的兩種局部通道注意機制;
在MSCOCO 2017驗證和測試數據集上的大量實(shí)驗表明,無(wú)論是否基于特征金字塔,圖特征金字塔網(wǎng)絡(luò )都可以幫助實(shí)現比現有的最先進(jìn)的目標檢測方法明顯更好的性能。
GraphFPN旨在通過(guò)在超像素層次上構建多尺度圖神經(jīng)網(wǎng)絡(luò )來(lái)增強卷積特征金字塔網(wǎng)絡(luò )
Superpixel Hierarchy
首先一張圖片由一個(gè)個(gè)像素組成(可以看成網(wǎng)格),每個(gè)像素可以有一個(gè)灰度值(標量)或RGB值(三維向量)。
現今一張圖片動(dòng)輒1024*1448>100w像素,因此對于圖像處理來(lái)說(shuō),是非常大的維度。超像素最大的功能之一,便是作為圖像處理其他算法的預處理,在不犧牲太大精確度的情況下降維!超像素最直觀(guān)的解釋?zhuān)闶前岩恍┚哂邢嗨铺匦缘南袼亍熬酆稀逼饋?lái),形成一個(gè)更具有代表性的大“元素”。而這個(gè)新的元素,將作為其他圖像處理算法的基本單位。
一來(lái)大大降低了維度;
二來(lái)可以剔除一些異常像素點(diǎn)。
Multi-scale Graph Pyramid
研究者構建了一個(gè)圖金字塔,其級別對應于超像素層次的級別。超像素層次中的每個(gè)超像素在圖金字塔的相應層次上都有一個(gè)對應的圖節點(diǎn)。因此,當從圖金字塔的一層移動(dòng)到下一層時(shí),節點(diǎn)的數量也會(huì )減少4倍。
研究者為圖金字塔定義了2種類(lèi)型的邊。它們被稱(chēng)為contextual edges和hierarchical edges。contextual edges連接同一層次上的2個(gè)相鄰節點(diǎn),而hierarchical edges連接不同層次上的2個(gè)節點(diǎn),如果它們對應的超像素之間存在ancestor-descendant關(guān)系。contextual edges用于傳播hierarchical edges用于彌合不同層次之間的語(yǔ)義差距。
特別需要注意的是,hierarchical edges是密集的,因為在每個(gè)節點(diǎn)和它的每個(gè)ancestor和descendant之間都有這樣的邊緣。這些密集的連接會(huì )產(chǎn)生很大的計算和內存成本。因此,每個(gè)hierarchical edges都與其節點(diǎn)特征之間的余弦相似度關(guān)聯(lián),研究者根據它們的余弦特征相似度對hierarchical edges進(jìn)行修剪。在所有關(guān)聯(lián)到節點(diǎn)的分層邊緣中,排在最后50%的邊緣將被刪除。
Graph Neural Network Layers
在圖金字塔的基礎上構造了一個(gè)圖神經(jīng)網(wǎng)絡(luò )GraphFPN。在GraphFPN中有2種類(lèi)型的層: contextual layers和hierarchical layers。這2種類(lèi)型的層在圖金字塔中使用相同的節點(diǎn)集,但不同的圖邊集。contextual layers只使用上下文邊緣,而hierarchical layers只使用修剪過(guò)的層次邊緣。GraphFPN在最開(kāi)始有L1 contextual layers,在中間有L2 hierarchical layers,在最后有L3 contextual layers。更重要的是,每一層都有自己的可學(xué)習參數,這些參數不會(huì )與任何其他層共享。
4、實(shí)驗
Comparison with state-of-the-art feature pyramid based methods on MS-COCO 2017 test-dev. “AH” and “MT” stand for augmented head and multi-scale training strategies respectively. The backbone of all listed methods is ResNet101.
Comparison with other popular object detectors on MS-COCO 2017 val set. The backbone of all listed methods is ResNet101.
Sample detection results from FPN, FPT, and our GraphFPN based method
The number of learnable parameters, the total computational cost, and the average test speed of a few detection models. All experiments are run on an NVidia TITAN 2080Ti GPU.
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
led燈相關(guān)文章:led燈原理