致敬ATSS | Dynamic ATSS再造ATSS輝煌?。?!
以下文章來(lái)源于集智書(shū)童 ,作者ChaucerG
作者丨ChaucerG
來(lái)源丨集智書(shū)童
標簽分配(Label assignment)在目標檢測模型中起著(zhù)重要的作用。檢測模型使用不同的標簽分配策略可能會(huì )產(chǎn)生完全不同的性能。對于基于A(yíng)nchor的檢測模型,Anchor與其對應的Ground Truth之間的IoU閾值是關(guān)鍵因素,因為正樣本和負樣本是由IoU閾值所劃分的。早期的目標檢測器只是對所有訓練樣本使用一個(gè)固定的閾值,而最近的檢測算法專(zhuān)注于基于IOU到Ground Truth分布的自適應生成閾值。
本文介紹了一種簡(jiǎn)單而有效的標簽分配(基于訓練和測試狀態(tài)動(dòng)態(tài)分配)的方法。通過(guò)在標簽分配中引入預測,選擇對Ground Truth目標的高IoU的高質(zhì)量樣本作為正樣本,可以減少分類(lèi)分數與IoU分數之間的差異,生成更多高質(zhì)量的邊界框。本文方法通過(guò)自適應標簽分配算法提高了檢測模型的性能,并降低了這些正樣本的邊界框損失,這也表明更多具有更高質(zhì)量預測框的樣本被選擇為正樣本。
code地址:https://github.com/ZTX-100/DLA-Combined-IoUs
1介紹
目標檢測是計算機視覺(jué)中的一個(gè)基本問(wèn)題,它可以同時(shí)分類(lèi)和定位圖像或視頻中的所有目標。隨著(zhù)深度學(xué)習的快速發(fā)展,目標檢測取得了巨大的成功,并被應用于許多任務(wù),如目標跟蹤、圖像分類(lèi)、圖像分割和醫學(xué)圖像分析。
標簽分配是將樣本分為正樣本和負樣本,這對目標檢測模型的成功至關(guān)重要。對于基于A(yíng)nchor的模型,標簽分配的核心是正樣本和負樣本劃分的閾值。在計算Anchor與GT之間的交集(IoU)后,正樣本為IoU大于閾值的Anchor,而其他樣本為負樣本或忽略的Anchor。早期的檢測模型利用固定的閾值來(lái)區分正負樣本。然而,具有固定閾值來(lái)劃分正負樣本的算法忽略了不同GT的形狀和大小的差異。
近年來(lái),人們提出了幾種自適應標簽分配策略來(lái)自適應計算閾值。這些算法自適應地選擇基于IoU的正樣本和負樣本分布之間的Anchor和GT,以便GT有更多高質(zhì)量的Anchor對應將有一個(gè)更高的IoU閾值,劣質(zhì)Anchor對應會(huì )有一個(gè)較低的IoU閾值。
然而,自適應分配方法并不基于更準確地代表訓練狀態(tài)的預測來(lái)分配正負樣本。由于分類(lèi)和定位的差異,分類(lèi)得分并不能精確對應定位質(zhì)量,而NMS(非最大抑制)假設分類(lèi)分數代表定位質(zhì)量,并進(jìn)行過(guò)濾重復,只保留分類(lèi)分數高的樣本。但是,如果分類(lèi)分數不能準確地表示定位質(zhì)量,則可能會(huì )刪除一些高質(zhì)量的bbox,保留一些低質(zhì)量的bbox。而固定Anchor不能保證預測bbox的質(zhì)量。
因此,引入預測來(lái)指導標簽分配是一種有效的方法,因為Anchor可以產(chǎn)生高質(zhì)量的預測作為正樣本。在早期訓練階段,預測存在不確定性,所以不能直接用預測的邊界框代替Anchor。在一些利用預測來(lái)加權正樣本的算法中,提出了增加GT中心的距離。而預測(分類(lèi)分數或IoU分數)和距離是2個(gè)不同的“domains”,它們不能自然地組合起來(lái)。AutoAssign設計了一個(gè)中心加權模塊來(lái)解決這個(gè)問(wèn)題,但由于假設靠近GT中心的樣本會(huì )有更多的權重,該模塊可能是次優(yōu)?!癆ll-to-Top-1”基于迭代而不是預測減少了包中Anchor的數量。因此,訓練可能不是最優(yōu)的,因為袋子中Anchor的數量不受預測的控制,也可能不滿(mǎn)足訓練狀態(tài)。
于是作者提出了一種簡(jiǎn)單有效的方法,直接將預測邊界框和GT之間的預測IoUs,以及Anchor和GT之間的Anchor IoUs結合起來(lái)。然后根據候選Anchor與GT之間的IoU的統計特性,可以得到自適應模型。
而本文的方法分別計算預測的IoU和Anchor IoU的分布,然后通過(guò)簡(jiǎn)單相加得到組合參數。最后,通過(guò)組合分布參數計算組合閾值。由于每次迭代中的預測都涉及到標簽分配,因此 soft targets(預測邊界框和GT之間的預測IoU)比hard target更合適。QFL和VFL是常用的soft targets分類(lèi)損失。這兩者都可以進(jìn)一步提高所提方法的性能。此外,為了更好的準確性,作者用IoU分支替換Centerness分支。在COCO數據集上的實(shí)驗表明了本文的方法在沒(méi)有額外成本下的有效性。
2相關(guān)工作
2.1 目標檢測
目標檢測可分為兩階段方法和一階段方法:
兩階段檢測模型:首先利用區域金字塔網(wǎng)絡(luò )(RPN)選擇具有高置信度的Anchor,并對這些候選Anchor進(jìn)行細化。然后將精細化后的Anchor送入第二階段進(jìn)行分類(lèi)并進(jìn)一步的回歸。
單階段檢測模型:直接對Anchor進(jìn)行分類(lèi)和回歸,而沒(méi)有對一些候選Anchor進(jìn)行選擇和細化。
與單階段檢測模型相比,兩級兩階段檢測通常具有更高的精度,但速度較低。隨著(zhù)RetinaNet的出現,通過(guò)引入Focal loss來(lái)抑制容易樣本的丟失,降低了單階段檢測模型和兩階段檢測模型的準確性差異,使單階段方法既能達到高精度,又能達到低延遲。因此,目前的目標檢測模型主要采用單階段檢測方法。
隨著(zhù)Anchor-Free模型的發(fā)展,一個(gè)良好的檢測模型不再需要預定義的Anchor。Anchor-Free模型要么從Anchor point(特征點(diǎn))回歸邊界框,要么預測GT目標的一些特殊點(diǎn),如目標的邊界框的角或極端點(diǎn),最后從這些特殊點(diǎn)構建預測的邊界框。
最近,一些目標檢測模型通過(guò)使用Transformer的注意力模塊性能得到了一定的提升,Transformer最初是用于自然語(yǔ)言處理領(lǐng)域。DETR首先將Transformer引入到檢測模型的Head,它也是Anchor-Free的。盡管如此,由于Transformer中使用的全局注意力和用于目標檢測的大分辨率,DETR比CNN需要更長(cháng)的時(shí)間才能收斂。因此,最近的算法試圖設計快速訓練收斂的DETR來(lái)加快訓練過(guò)程。
2.2 Label Assignment
標簽分配是檢測模型性能的核心因素,如何劃分正樣本和負樣本將決定網(wǎng)絡(luò )如何學(xué)習和收斂。早期的檢測模型,如快速的RCNN、SSD和RetinaNet,利用傳統的具有固定閾值的標簽分配方法來(lái)區分正樣本和負樣本。盡管那些具有固定閾值的檢測模型對標簽分配仍然有效,但它們忽略了不同目標樣本在其形狀、大小和相應的正Anchor數量上的差異。
近年來(lái),研究人員專(zhuān)注于設計自適應閾值,并逐漸放棄了標簽分配的固定閾值。ATSS通過(guò)根據候選Anchor和GT目標之間的IoU分布,計算均值和標準差來(lái)計算自適應閾值。PAA將候選Anchor擬入高斯混合模型中,并對其進(jìn)行概率分離。
使用預測來(lái)指導標簽分配可能更準確,因為預先定義的Anchor可能不能準確地反映實(shí)際的訓練狀態(tài)。然而,在早期訓練階段的預測是不準確和不合理的指導標簽分配。
FreeAnchor利用最大似然估計(MLE)對訓練過(guò)程進(jìn)行建模,使每個(gè)GT可以至少有一個(gè)對應的Anchor、分類(lèi)得分和定位得分。
MAL采用來(lái)自分類(lèi)和定位的預測作為評估Anchor的聯(lián)合置信度。為了緩解次優(yōu)Anchor選擇問(wèn)題,MAL基于聯(lián)合置信度對選定錨點(diǎn)的特征進(jìn)行擾動(dòng),提出了“All-to-Top-1” Anchor選擇策略。
Autoassign引入中心權重來(lái)處理早期訓練階段中不合理的預測,這表明靠近GT中心的樣本會(huì )有更多的權重。
3本文方法
3.1 致敬ATSS
ATSS策略經(jīng)常把正負樣本通過(guò)計算統計參數(如平均值和標準偏差)選定候選Anchors。根據候選Anchor在GT中的位置選擇候選Anchor后,根據候選Anchor在相應的GT中的分布情況計算自適應閾值。
ATSS根據GT的形狀和大小自適應地計算閾值。如果GT較大或方形,則其對應的高質(zhì)量Anchor較多,閾值會(huì )更高。如果GT細長(cháng)或小,由于大多數可能是低質(zhì)量Anchor,所以閾值會(huì )比較低。然而,大多數自適應方法只根據Anchor和GT之間的關(guān)系來(lái)計算自適應閾值。它們僅僅依賴(lài)于預定義的錨定框,而在訓練過(guò)程中忽略了預測的邊界框。
換句話(huà)說(shuō),對GT具有最高IoU的Anchor并不能保證其預測的邊界框在所有正樣本中也對GT具有最高的IoU。因此,一些具有高質(zhì)量預測邊界框的樣本可以被定義為分類(lèi)目標為0的負樣本。因此,這就影響了高質(zhì)量的邊界框的性能。
使用預測信息可以提高定義正的和負的準確性,因為預測可以反映每個(gè)樣本的真實(shí)訓練狀態(tài)。然而,直接使用預測可能并不合適,因為在早期訓練階段的預測對于指導正樣本和負樣本的定義是不合理的。因此,本文提出了一種簡(jiǎn)單有效的方法來(lái)解決這個(gè)問(wèn)題。
3.2 Dynamic ATSS
本文提出了一種簡(jiǎn)單有效的動(dòng)態(tài)標簽分配策略,將預測引入到標簽分配的Anchor中。在早期訓練階段,由于隨機初始化,預測是不準確的。因此,Anchor就像之前指示標簽定義一樣。預測逐漸主導組合的IoU,并隨著(zhù)訓練和預測的改進(jìn)導致標簽分配。
本文方法將使用從回歸分支中解碼的預測框,并選擇ATSS作為標簽分配的自適應示例。然后通過(guò)計算預測框與GT之間的IoU,以及Anchor與GT之間的IoU,得到預測的IoU和Anchor IoU。最后,通過(guò)對預測的IoUs和Anchor的IoUs的求和,計算出組合的IoUs(CIoUs)。ATSS利用均值和標準差來(lái)計算閾值,因此實(shí)現了相同的計算來(lái)獲得組合均值和組合std。IoU閾值由組合均值和組合std之和計算,正候選樣本定義為組合IoU大于或等于IoU閾值的樣本。候選正樣本被限制在GT內,作為最終的正樣本。
該網(wǎng)絡(luò )結構如圖1所示。使用ATSS作為基礎網(wǎng)絡(luò ),它有一個(gè)CNN Backbone,一個(gè)FPN Neck,和一個(gè)共享的Head,它分別有2個(gè)分支分別用于分類(lèi)和回歸。該方法提取回歸結果,將回歸偏移量解碼為邊界框的坐標,最后計算出解碼的邊界框與GTs之間的IoU。將預測的IoU與Anchor IoU結合,選擇出正樣本,如圖1所示。
為什么利用預測來(lái)指導標簽分配如此重要?
預測比預定義的Anchor更準確,因為選擇最終結果和實(shí)現NMS算法都是基于預測結果而不是基于A(yíng)nchor框。經(jīng)常設計檢測模型基于假設樣本的預定義Anchor有很高的IoU與GT適合被選為正樣本,或樣本的中心接近GT的中心的目標也可以被選擇為正樣本。
對于每個(gè)圖像,一旦選定了正樣本,在訓練過(guò)程中不會(huì )對正樣本進(jìn)行修改,因為預先定義的Anchor是固定的,不會(huì )根據訓練狀態(tài)而改變。然而,具有高質(zhì)量預測的樣本可能并不經(jīng)常是具有高質(zhì)量Anchor的樣本,盡管它們產(chǎn)生高質(zhì)量預測的概率更高。
如果用高質(zhì)量的Anchor迫使樣本在整個(gè)訓練過(guò)程中都是正樣本,網(wǎng)絡(luò )將專(zhuān)注于學(xué)習這些樣本,即使他們的預測不夠好,忽略了樣本可以產(chǎn)生更好的預測結果的樣本,因為有相對低質(zhì)量的Anchor可能被分配為負樣本。
而如果在每次迭代中都引入預測,以幫助定義正負樣本,可以選擇更多具有高質(zhì)量預測的樣本作為正樣本,并進(jìn)一步改進(jìn)這些樣本。添加預測的IoU和Anchor IoU可以產(chǎn)生更好的結果,并產(chǎn)生更高質(zhì)量的預測。由于網(wǎng)絡(luò )的隨機初始化,Anchor IoU對于本文的方法也是必要的,它們可以作為先驗。在本文的方法中,預測和先驗都是對GT的IoU,因此它們可以通過(guò)添加自然地組合在一起,而不需要任何特殊的設計,如圖1所示。
3.3 Soft Targets for Classifification Loss
隨著(zhù)focal loss的出現,大多數目標檢測模型都利用focal loss學(xué)習類(lèi)標簽。focal loss解決了訓練過(guò)程中正樣本和負樣本之間的極端不平衡問(wèn)題,抑制了大多數簡(jiǎn)單的負樣本,由于這些簡(jiǎn)單負樣本數量極多,可能會(huì )主導訓練損失。
由于引入了標簽分配的預測,使用Soft Targets(預測Iou到GT)更適合將高預測IoU排序在其他低預測IoU之上,這在GFL和VFNet中使用。GFL分別由QFL和DFL組成,分別進(jìn)行分類(lèi)和回歸。在模型中使用了QFL來(lái)進(jìn)行分類(lèi)。當Soft Targets不等于1時(shí),QFL的交叉熵損失轉換為一般形式。此外,還根據Soft Targets對focal loss權值進(jìn)行了修正。
當分類(lèi)預測接近QFL中使用的軟目標時(shí),VFNet沒(méi)有降低損失的權重,而是利用VFL將正損失與賦值的Soft Targets加權。通過(guò)改變正IoU目標的權重,具有較高IoU目標的正樣本的損失也會(huì )更高,從而使網(wǎng)絡(luò )能夠專(zhuān)注于學(xué)習那些高質(zhì)量的正樣本。
在實(shí)驗中,通過(guò)實(shí)驗證明,本文提出的方法優(yōu)于表一中使用QFL或VFL的相同模型。此外,將本文提出的方法與QFL或VFL相結合,可以進(jìn)一步提高檢測模型的性能。
4實(shí)驗
4.1 消融實(shí)驗
1、驗證方法的有效性
從表1可以看出,ATSS與提出的CIoUs(組合IoUs)在分類(lèi)損失方面超過(guò)了與Soft Targets(QFL和VFL)的相同模型。經(jīng)過(guò)簡(jiǎn)單的修改,可以在MS COCO val2017 數據集上將原始ATSS算法提高約0.7AP,這表明使用預測可以更好地指導正負樣本,Anchor也是指導標簽分配的必要條件。通過(guò)簡(jiǎn)單地將它們組合在一起,該模型可以產(chǎn)生更好的精度提高。只是將CIoUs引入ATSS,標記的目標仍然是Hard Targets。在接下來(lái)的實(shí)驗中,將證明Soft Targets(QFL或VFL)可以進(jìn)一步提高性能。
2、每個(gè)元素的貢獻
在表2中,AIoU表示預定義Anchor與GT之間的IoU。如果只選擇AIoUs,則執行原始的ATSS。PIoUs表示在預測的邊界框和GT之間的IoU。如果AIoU和PIoU同時(shí)被選中,提出的組合IoU通過(guò)將計算出的AIoU和PIoU相加來(lái)實(shí)現??梢宰⒁獾?,只使用PIoUs標簽分配模型的性能從39.06AP下降到了29.39AP,而簡(jiǎn)單地添加PIoUs定義正樣本和負樣本相對于A(yíng)IoU可以提升大約0.7AP。
從表2可以看出,本文提出的方法(AIoUs+PIoUs)可以通過(guò)軟目標(QFL或VFL)進(jìn)一步改進(jìn)。原ATSS采用中心作為額外分支對正樣本進(jìn)行權重,使靠近GT中心的樣本比遠離GT中心的樣本有更高的權重。在將中心度轉換為IoU(預測IoU而不是中心度)后,性能可以進(jìn)一步提高。
從圖2中可以看出,2種模型在早期訓練階段的回歸損失并沒(méi)有太大的差異。而隨著(zhù)訓練過(guò)程的進(jìn)行,本文的方法比原始模型具有更低的回歸損失,這表明本文的模型可以選擇具有更高質(zhì)量邊界框的正樣本,因為更準確的預測邊界框會(huì )產(chǎn)生更低的回歸損失。此外,大目標的平均精度(APl)大大提高了約2%。
3、平衡AIoU與PIoU
4.2 SOTA實(shí)驗
5參考
[1].Dynamic Label Assignment for Object Detection by Combining Predicted and Anchor IoUs
本文僅做學(xué)術(shù)分享,如有侵權,請聯(lián)系刪文。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。