<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 用于精確目標檢測的多網(wǎng)格冗余邊界框標注

用于精確目標檢測的多網(wǎng)格冗余邊界框標注

發(fā)布人:CV研究院 時(shí)間:2023-06-20 來(lái)源:工程師 發(fā)布文章
現在領(lǐng)先的目標檢測器是從基于深度CNN的主干分類(lèi)器網(wǎng)絡(luò )重新調整用途的兩級或級網(wǎng)絡(luò )。

一、前言

現在領(lǐng)先的目標檢測器是從基于深度CNN的主干分類(lèi)器網(wǎng)絡(luò )重新調整用途的兩級或單級網(wǎng)絡(luò )。YOLOv3就是這樣一種眾所周知的最先進(jìn)的單級檢測器,它接收輸入圖像并將其劃分為大小相等的網(wǎng)格矩陣。具有目標中心的網(wǎng)格單元負責檢測特定目標。

今天分享的,就是提出了一種新的數學(xué)方法,該方法為每個(gè)目標分配多個(gè)網(wǎng)格,以實(shí)現精確的tight-fit邊界框預測。研究者還提出了一種有效的離線(xiàn)復制粘貼數據增強來(lái)進(jìn)行目標檢測。新提出的方法顯著(zhù)優(yōu)于一些當前最先進(jìn)的目標檢測器,并有望獲得更好的性能。

二、背景

目標檢測網(wǎng)絡(luò )旨在使用緊密匹配的矩形邊界框在圖像上定位對象并正確標記它。如今,有兩種不同的方法可以實(shí)現這一目的。第一個(gè)也是性能方面,最主要的方法是兩階段目標檢測,最好的代表RCNN及其衍生物[Faster r-cnn: Towards real-time object detection with region proposal networks]、[Fast r-cnn]。相比之下,第二組目標檢測實(shí)現因其出色的檢測速度和輕量級而廣為人知,被稱(chēng)為單階段網(wǎng)絡(luò ),代表性示例為[You only look once: Unified, real-time object detection]、[Ssd: Single shot multibox detector]、[Focal loss for dense object detection]。兩階段網(wǎng)絡(luò )依賴(lài)于一個(gè)潛在的區域建議網(wǎng)絡(luò ),該網(wǎng)絡(luò )生成可能包含感興趣對象的圖像的候選區域,第二個(gè)檢測頭處理分類(lèi)和邊界框回歸。在單階段目標檢測中,檢測是一個(gè)單一的、完全統一的回歸問(wèn)題,它在一個(gè)完整的前向傳遞中同時(shí)處理分類(lèi)和定位。因此,通常,單階段網(wǎng)絡(luò )更輕、更快且易于實(shí)現。

圖片

今天的研究依然是堅持YOLO的方法,特別是YOLOv3,并提出了一種簡(jiǎn)單的hack,可以同時(shí)使多個(gè)網(wǎng)格單元預測目標坐標、類(lèi)別和目標置信度。每個(gè)對象的多網(wǎng)格單元分配背后的基本理論是通過(guò)強制多個(gè)單元在同一對象上工作來(lái)增加預測緊密擬合邊界框的可能性。

圖片

多網(wǎng)格分配的一些優(yōu)點(diǎn)包括:

(a)為目標檢測器提供它正在檢測的對象的多視角視圖,而不是僅依靠一個(gè)網(wǎng)格單元來(lái)預測對象的類(lèi)別和坐標;

(b ) 較少隨機和不穩定的邊界框預測,這意味著(zhù)高精度和召回率,因為附近的網(wǎng)格單元被訓練來(lái)預測相同的目標類(lèi)別和坐標;

(c) 減少具有感興趣對象的網(wǎng)格單元與沒(méi)有感興趣對象的網(wǎng)格之間的不平衡。

此外,由于多網(wǎng)格分配是對現有參數的數學(xué)利用,并且不需要額外的關(guān)鍵點(diǎn)池化層和后處理來(lái)將關(guān)鍵點(diǎn)重新組合到其對應的目標,如CenterNet和CornerNet,可以說(shuō)它是一個(gè)更實(shí)現無(wú)錨或基于關(guān)鍵點(diǎn)的目標檢測器試圖實(shí)現的自然方式。除了多網(wǎng)格冗余注釋?zhuān)芯空哌€引入了一種新的基于離線(xiàn)復制粘貼的數據增強技術(shù),用于準確的目標檢測。

三、MULTI-GRID ASSIGNMENT

圖片

上圖包含三個(gè)目標,即狗、自行車(chē)和汽車(chē)。為簡(jiǎn)潔起見(jiàn),我們將解釋我們在一個(gè)對象上的多網(wǎng)格分配。上圖顯示了三個(gè)對象的邊界框,其中包含更多關(guān)于狗的邊界框的細節。下圖顯示了上圖的縮小區域,重點(diǎn)是狗的邊界框中心。包含狗邊界框中心的網(wǎng)格單元的左上角坐標用數字0標記,而包含中心的網(wǎng)格周?chē)钠渌藗€(gè)網(wǎng)格單元的標簽從1到8。

圖片

到目前為止,我已經(jīng)解釋了包含目標邊界框中心的網(wǎng)格如何注釋目標的基本事實(shí)。這種對每個(gè)對象僅一個(gè)網(wǎng)格單元的依賴(lài)來(lái)完成預測類(lèi)別的困難工作和精確的tight-fit邊界框引發(fā)了許多問(wèn)題,例如:

(a)正負網(wǎng)格之間的巨大不平衡,即有和沒(méi)有對象中心的網(wǎng)格坐標

(b)緩慢的邊界框收斂到GT

(c)缺乏要預測的對象的多視角(角度)視圖。

所以這里要問(wèn)的一個(gè)自然問(wèn)題是,“顯然,大多數對象包含一個(gè)以上網(wǎng)格單元的區域,因此是否有一種簡(jiǎn)單的數學(xué)方法來(lái)分配更多這些網(wǎng)格單元來(lái)嘗試預測對象的類(lèi)別和坐標連同中心網(wǎng)格單元?”。這樣做的一些優(yōu)點(diǎn)是(a)減少不平衡,(b)更快的訓練以收斂到邊界框,因為現在多個(gè)網(wǎng)格單元同時(shí)針對同一個(gè)對象,(c)增加預測tight-fit邊界框的機會(huì )(d) 為YOLOv3等基于網(wǎng)格的檢測器提供多視角視圖,而不是對象的單點(diǎn)視圖。新提出的多重網(wǎng)格分配試圖回答上述問(wèn)題。

圖片

Ground-truth encoding

四、訓練

 A. The Detection Network: MultiGridDet

MultiGridDet是一個(gè)目標檢測網(wǎng)絡(luò ),通過(guò)從YOLOv3中刪除六個(gè)darknet卷積塊來(lái)使其更輕、更快。一個(gè)卷積塊有一個(gè)Conv2D+Batch Normalization+LeakyRelu。移除的塊不是來(lái)自分類(lèi)主干,即Darknet53。相反,將它們從三個(gè)多尺度檢測輸出網(wǎng)絡(luò )或頭中刪除,每個(gè)輸出網(wǎng)絡(luò )兩個(gè)。盡管通常深度網(wǎng)絡(luò )表現良好,但太深的網(wǎng)絡(luò )也往往會(huì )快速過(guò)度擬合或大幅降低網(wǎng)絡(luò )速度。

B. The Loss function

圖片

圖片

Coordinate activation function plot with different β values

C. Data Augmentation

離線(xiàn)復制粘貼人工訓練圖像合成工作如下:首先,使用簡(jiǎn)單的圖像搜索腳本,使用地標、雨、森林等關(guān)鍵字從谷歌圖像下載數千張背景無(wú)對象圖像,即沒(méi)有我們感興趣的對象的圖像。然后,我們從整個(gè)訓練數據集的隨機q個(gè)圖像中迭代地選擇p個(gè)對象及其邊界框。然后,我們生成使用它們的索引作為ID選擇的p個(gè)邊界框的所有可能組合。從組合集合中,我們選擇滿(mǎn)足以下兩個(gè)條件的邊界框子集:

  • if arranged in some random order side by side, they must fit within a given target background image area

  • and should efficiently utilize the background image space in its entirety or at least most part of it without the objects overlap.

五、實(shí)驗及可視化

Pascal VOC 2007上的性能比較

圖片

圖片

coco數據集上的性能比較

圖片

圖片

從圖中可以看出,第一行顯示了六個(gè)輸入圖像,而第二行顯示了網(wǎng)絡(luò )在非極大抑制(NMS)之前的預測,最后一行顯示了MultiGridDet在NMS之后對輸入圖像的最終邊界框預測。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>