旋轉角度目標檢測的重要性?。?!
論文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9521517
任意方向的目標檢測是一項具有挑戰性的任務(wù)。
一、背景
目標檢測是計算機視覺(jué)中的一項基本任務(wù),許多研究人員已經(jīng)應用水平邊界框來(lái)定位圖像中的物體。 水平邊界框的使用可以使候選區域的表示更加簡(jiǎn)潔直觀(guān)。 在許多基于深度學(xué)習的方法中,往往需要大量標記樣本來(lái)訓練目標檢測器模型,使用軸平行標記框可以大大提高標記效率,快速獲取大量標記樣本。 此外,水平邊界框涉及的參數較少,簡(jiǎn)化了檢測模型的訓練過(guò)程。 因此,在大多數目標檢測方法中,使用水平邊界框來(lái)表示遙感圖像中目標的大致范圍,如下圖所示。
然而,航拍圖像中的物體通常是任意方向的。因此,使用水平邊界框來(lái)檢測目標會(huì )引起幾個(gè)問(wèn)題。首先,這種類(lèi)型的物體檢測框通常包含許多背景區域。如上圖(a)所示,圖中大約60%的區域屬于背景區域。檢測框內存在過(guò)多的背景區域,不僅增加了分類(lèi)任務(wù)的難度,而且會(huì )導致目標范圍表示不準確的問(wèn)題。其次,水平邊界框會(huì )導致檢測框之間出現強烈重疊,如上圖(b)所示,降低檢測精度。最后,由于飛機、船舶、車(chē)輛等圖像中的物體包含運動(dòng)方向信息,如果使用水平邊界框,則無(wú)法獲得目標運動(dòng)方向的信息。
上述三個(gè)問(wèn)題可以通過(guò)使用帶有角度信息的旋轉檢測框有效解決,如上圖所示。首先,旋轉檢測可以精確定位圖像中的物體,并且邊界框幾乎不包含背景區域,從而減少背景對物體分類(lèi)的影響。其次,旋轉檢測框之間幾乎沒(méi)有重疊,從而可以更清晰地識別框內包含的物體。最后,可以從旋轉檢測框粗略得到物體的運動(dòng)方向信息,從而判斷物體的運動(dòng)軌跡。綜上所述,在遙感圖像目標檢測任務(wù)中使用帶有角度信息的旋轉檢測框獲得了優(yōu)越的性能。
二、前言
任意方向的目標檢測是一項具有挑戰性的任務(wù)。由于遙感圖像中的物體方向是任意的,使用水平邊界框會(huì )導致檢測精度低?,F有的基于回歸的旋轉檢測器會(huì )導致邊界不連續的問(wèn)題。
在今天的分享中,研究者提出了一種基于角度分類(lèi)的遙感圖像目標檢測方法,該方法使用帶有角度信息的旋轉檢測邊界框來(lái)檢測對象。具體來(lái)說(shuō),研究者將神經(jīng)架構搜索框架與特征金字塔網(wǎng)絡(luò ) (NAS-FPN) 模塊結合到密集檢測器 (RetinaNet) 中,并在角度分類(lèi)中使用二進(jìn)制編碼方法。這種方法減少了背景影響,使得檢測框之間幾乎沒(méi)有重疊。根據檢測框的角度,我們可以推斷出目標的運動(dòng)方向信息,進(jìn)一步確定目標的運動(dòng)軌跡。
研究者對一個(gè)可用于航空影像 (DOTA) 中的目標檢測的大型公共數據進(jìn)行了消融實(shí)驗,以驗證該方法中每個(gè)模塊的有效性,并將該方法與其他幾種檢測方法進(jìn)行比較。實(shí)驗結果證明了新提出方法的有效性。
三、新框架
新提出的旋轉檢測器框架如上圖所示。網(wǎng)絡(luò )基于RetinaNet框架。圖中標記為C2、C3、C4的特征圖是由深度卷積神經(jīng)網(wǎng)絡(luò )提取的。該方法的總體步驟如下:首先利用特征提取網(wǎng)絡(luò )對遙感圖像中的特征進(jìn)行提取,利用NAS-FPN對提取的特征進(jìn)行融合,得到不同尺度的特征圖。然后,使用長(cháng)邊定義方法來(lái)表示旋轉檢測框,并在框回歸任務(wù)中使用二進(jìn)制編碼標記技術(shù)將角度回歸問(wèn)題轉化為角度分類(lèi)問(wèn)題。下面詳細描述該方法中的一些重要結構。
NAS-FPN
在NAS-FPN中,最重要的結構是由特征圖節點(diǎn)集合、操作池和搜索終止條件組成的合并單元結構。下圖簡(jiǎn)要描述了特征圖的搜索過(guò)程。
1)從特征圖節點(diǎn)集中隨機選擇一個(gè)特征圖作為輸入之一。初始特征圖節點(diǎn)集包含五個(gè)尺度的特征圖,表示為 {C1,C2, C3, C4, C5}。
2)從特征圖節點(diǎn)集中隨機選擇另一個(gè)特征圖作為另一個(gè)輸入。
3)選擇輸出特征圖的分辨率。
4)在操作池中選擇一個(gè)操作對(1)(2)中選擇的特征圖節點(diǎn)進(jìn)行操作,產(chǎn)生與輸出特征圖分辨率相同的特征圖,并將該特征圖加入到特征圖節點(diǎn)集合中選擇。
5) 循環(huán)重復上述步驟。搜索的終止條件是生成五個(gè)與初始特征圖分辨率相同的特征金字塔網(wǎng)絡(luò ),記為{P1, P2, P3, P4, P5}。
ROTATION DETECTION FRAME
典型的角度編碼方法有三種,包括兩種不同角度范圍的五參數方法和一種八參數方法。詳細情況如下:
角度范圍為90°的五參數法(OpenCV定義法):其示意圖如上圖所示。該定義法包含五個(gè)參數[x,y,w,h,θ]。其中,x和y為旋轉坐標系的中心坐標,θ為旋轉坐標系與x軸的銳角,逆時(shí)針?lè )较蛑付樨摻?,因此角度范圍為[?90° , 0); 旋轉框的寬度w為旋轉框所在的邊角,旋轉框的高度h為另一邊。
180°角范圍的五參數法
八參數法
八參數法:該定義方法示意圖如上圖所示,該定義方法包含8個(gè)參數[a1,a2,b1,b2,c1,c2,d1,d2], 定義的左上角為起點(diǎn),其余點(diǎn)按逆時(shí)針順序排列。旋轉坐標系的表示不限于上述三種方法,旋轉坐標系其余部分的表示可以通過(guò)上述三種方法的變換得到。
ANGLE CODING METHOD
90°范圍的五參數定義方法的問(wèn)題
八參數四邊形定義方法的問(wèn)題
角度編碼方法:
四、實(shí)驗及可視化
實(shí)驗環(huán)境
DOTA數據集上的性能比較
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。