<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > Anchor-free目標檢測 | 工業(yè)應用更友好的新網(wǎng)絡(luò )（附大量相關(guān)論文下載）

Anchor-free目標檢測 | 工業(yè)應用更友好的新網(wǎng)絡(luò )（附大量相關(guān)論文下載）

發(fā)布人：CV研究院時(shí)間：2022-03-19 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

隨著(zhù)CVPR和ICCV的結束，一大批目標檢測的論文在arXiv上爭先恐后地露面，更多的論文都可以直接下載。下面幾篇paper有異曲同工之妙，開(kāi)啟了anchor-based和anchor-free的輪回。1. Feature Selective Anchor-Free Module for Single-Shot Object Detection2. FCOS: Fully Convolutional One-Stage Object Detection3. FoveaBox: Beyond Anchor-based Object Detector4. High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection

這幾篇論文不約而同地將矛頭對準了Anchor這個(gè)檢測里面的基礎模塊，采用anchor-free的方法在單階段檢測器上達到了和anchor-based方法類(lèi)似或者更好的效果。

anchor-free和anchor-based區別

這個(gè)問(wèn)題首先需要回答為什么要有anchor。在深度學(xué)習時(shí)代，物體檢測問(wèn)題通常都被建模成對一些候選區域進(jìn)行分類(lèi)和回歸的問(wèn)題。在單階段檢測器中，這些候選區域就是通過(guò)滑窗方式產(chǎn)生的anchor；在兩階段檢測器中，候選區域是RPN生成的proposal，但是RPN本身仍然是對滑窗方式產(chǎn)生的anchor進(jìn)行分類(lèi)和回歸。

而在上面幾篇論文的anchor-free方法中，是通過(guò)另外一種手段來(lái)解決檢測問(wèn)題的。同樣分為兩個(gè)子問(wèn)題，即確定物體中心和對四條邊框的預測。預測物體中心時(shí)，具體實(shí)現既可以像1、3那樣定義一個(gè)hard的中心區域，將中心預測融入到類(lèi)別預測的target里面，也可以像2、4那樣預測一個(gè)soft的centerness score。對于四條邊框的預測，則比較一致，都是預測該像素點(diǎn)到ground truth框的四條邊距離，不過(guò)會(huì )使用一些trick來(lái)限制 regress 的范圍。

為什么anchor-free能卷土重來(lái)

anchor-free 的方法能夠在精度上媲美 anchor-based 的方法，最大的功勞我覺(jué)得應該歸于 FPN，其次歸于 Focal Loss。（內心OS：RetinaNet 賽高）。在每個(gè)位置只預測一個(gè)框的情況下，FPN 的結構對尺度起到了很好的彌補，FocalLoss 則是對中心區域的預測有很大幫助。當然把方法調 work 并不是這么容易的事情，相信有些細節會(huì )有很大影響，例如對重疊區域的處理，對回歸范圍的限制，如何將 target assign 給不同的 FPN level，head 是否 share 參數等等。

anchor-free 和 single anchor

上面提到的 anchor-free 和每個(gè)位置有一個(gè)正方形 anchor 在形式上可以是等價(jià)的，也就是利用 FCN 的結構對 feature map 的每個(gè)位置預測一個(gè)框（包括位置和類(lèi)別）。但 anchor-free 仍然是有意義的，我們也可以稱(chēng)之為 anchor-prior-free。另外這兩者雖然形式上等價(jià)，但是實(shí)際操作中還是有區別的。在 anchor-based 的方法中，雖然每個(gè)位置可能只有一個(gè) anchor，但預測的對象是基于這個(gè) anchor 來(lái)匹配的，而在 anchor-free 的方法中，通常是基于這個(gè)點(diǎn)來(lái)匹配的。

anchor-free的局限性

雖然上面幾種方法的精度都能夠與 RetinaNet 相媲美，但也沒(méi)有明顯優(yōu)勢（或許速度上有），離兩階段和級聯(lián)方法相差仍然較遠。和 anchor-based 的單階段檢測器一樣，instance-level 的 feature representation 是不如兩階段檢測器的，在 head 上面的花樣也會(huì )比較少一些。順便吐槽一下，上面的少數 paper 為了達到更好看的結果，在實(shí)驗上隱藏了一些細節或者有一些不公平的比較。

anchor-free的其他套路

anchor-free 除了上面說(shuō)的分別確定中心點(diǎn)和邊框之外，還有另一種 bottom-up 的套路，以 CornerNet 為代表。如果說(shuō)上面的 anchor-free 的方法還殘存著(zhù)區域分類(lèi)回歸的思想的話(huà)，這種套路已經(jīng)跳出了這個(gè)思路，轉而解決關(guān)鍵點(diǎn)定位組合的問(wèn)題。

這里就不詳細討論每一篇論文的方法（回復提供下載鏈接），下面開(kāi)始主要分享一下個(gè)人的想法。

早期探索：
DenseBox: https://arxiv.org/abs/1509.04874
YOLO: https://arxiv.org/abs/1506.02640
基于關(guān)鍵點(diǎn)：
CornerNet: https://arxiv.org/abs/1808.01244
ExtremeNet: https://arxiv.org/abs/1901.08043
密集預測:
FSAF: https://arxiv.org/abs/1903.00621
FCOS: https://arxiv.org/abs/1904.01355
FoveaBox: https://arxiv.org/abs/1904.03797v1

DenseBox:

如上圖所示，單個(gè)FCN同時(shí)產(chǎn)生多個(gè)預測bbox和置信分數的輸出。測試時(shí)，整個(gè)系統將圖片作為輸入，輸出5個(gè)通道的feature map。每個(gè)pixel的輸出feature map得到5維的向量，包括一個(gè)置信分數和bbox邊界到該pixel距離的4個(gè)值。最后輸出feature map的每個(gè)pixel轉化為帶分數的bbox，然后經(jīng)過(guò)NMS后處理。除了NMS之外，檢測系統的所有組成部分都構建在FCN之中。

網(wǎng)絡(luò )結構如下圖所示，基于VGG19進(jìn)行的改進(jìn)，整個(gè)網(wǎng)絡(luò )包含16層卷積，前12層由VGG19初始化，輸出conv4_4后接4個(gè)1x1的卷積，前兩個(gè)卷積產(chǎn)生1-channel map用于類(lèi)別分數，后兩個(gè)產(chǎn)生4-channel map用于預測相對位置。最后一個(gè)1x1的卷積擔當這全連接層的作用。

Refine with Landmark Localization

在DenseBox中由于是全卷積網(wǎng)絡(luò )，因此，基于landmark定位可以通過(guò)簡(jiǎn)單添加一些層來(lái)進(jìn)行實(shí)現。通過(guò)融合landmark heatmaps及目標score maps來(lái)對檢測結果進(jìn)行增強。如下圖所示，增加了一個(gè)分支用于landmark定位，假設存在N個(gè)landmarks，landmark 定位分支將會(huì )輸出N個(gè)響應maps，其中，每個(gè)像素值代表該位置為landmark的置信分數。該任務(wù)的ground truth maps與檢測的十分相似，對于一個(gè)landmark 實(shí)例，landmark k的第i個(gè)實(shí)例，其對應的ground truth 是位于輸出坐標空間中第k個(gè)響應 map上的positive 標記的區域。半徑rl應當較小從而避免準確率的損失。與分類(lèi)任務(wù)相似，landmark 定位損失也是定義為預測值與真實(shí)值的L2損失。同樣使用negative mining及ignore region。

YOLOv1:

YOLO意思是You Only Look Once，創(chuàng )造性的將候選區和對象識別這兩個(gè)階段合二為一，看一眼圖片（不用看兩眼哦）就能知道有哪些對象以及它們的位置。

實(shí)際上，YOLO并沒(méi)有真正去掉候選區，而是采用了預定義的候選區（準確點(diǎn)說(shuō)應該是預測區，因為并不是Faster RCNN所采用的Anchor）。也就是將圖片劃分為 7*7=49 個(gè)網(wǎng)格（grid），每個(gè)網(wǎng)格允許預測出2個(gè)邊框（bounding box，包含某個(gè)對象的矩形框），總共 49*2=98 個(gè)bounding box?？梢岳斫鉃?8個(gè)候選區，它們很粗略的覆蓋了圖片的整個(gè)區域。

RCNN：我們先來(lái)研究一下圖片，嗯，這些位置很可能存在一些對象，你們對這些位置再檢測一下看到底是哪些對象在里面。YOLO：我們把圖片大致分成98個(gè)區域，每個(gè)區域看下有沒(méi)有對象存在，以及具體位置在哪里。RCNN：你這么簡(jiǎn)單粗暴真的沒(méi)問(wèn)題嗎？YOLO：當然沒(méi)有......咳，其實(shí)是有一點(diǎn)點(diǎn)問(wèn)題的，準確率要低一點(diǎn)，但是我非?？?！快！快！RCNN：為什么你用那么粗略的候選區，最后也能得到還不錯的bounding box呢？YOLO：你不是用過(guò)邊框回歸嗎？我拿來(lái)用用怎么不行了。

1）結構
去掉候選區這個(gè)步驟以后，YOLO的結構非常簡(jiǎn)單，就是單純的卷積、池化最后加了兩層全連接。單看網(wǎng)絡(luò )結構的話(huà)，和普通的CNN對象分類(lèi)網(wǎng)絡(luò )幾乎沒(méi)有本質(zhì)的區別，最大的差異是最后輸出層用線(xiàn)性函數做激活函數，因為需要預測bounding box的位置（數值型），而不僅僅是對象的概率。所以粗略來(lái)說(shuō)，YOLO的整個(gè)結構就是輸入圖片經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò )的變換得到一個(gè)輸出的張量，如下圖所示。

因為只是一些常規的神經(jīng)網(wǎng)絡(luò )結構，所以，理解YOLO的設計的時(shí)候，重要的是理解輸入和輸出的映射關(guān)系.

2）輸入和輸出的映射關(guān)系

3）輸入
參考圖5，輸入就是原始圖像，唯一的要求是縮放到448*448的大小。主要是因為YOLO的網(wǎng)絡(luò )中，卷積層最后接了兩個(gè)全連接層，全連接層是要求固定大小的向量作為輸入，所以倒推回去也就要求原始圖像有固定的尺寸。那么YOLO設計的尺寸就是448*448。

4）輸出
輸出是一個(gè) 7*7*30 的張量（tensor）。

4.1）7*7網(wǎng)格
根據YOLO的設計，輸入圖像被劃分為 7*7 的網(wǎng)格（grid），輸出張量中的 7*7 就對應著(zhù)輸入圖像的 7*7 網(wǎng)格?；蛘呶覀儼?7*7*30 的張量看作 7*7=49個(gè)30維的向量，也就是輸入圖像中的每個(gè)網(wǎng)格對應輸出一個(gè)30維的向量。參考上面圖5，比如輸入圖像左上角的網(wǎng)格對應到輸出張量中左上角的向量。

要注意的是，并不是說(shuō)僅僅網(wǎng)格內的信息被映射到一個(gè)30維向量。經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò )對輸入圖像信息的提取和變換，網(wǎng)格周邊的信息也會(huì )被識別和整理，最后編碼到那個(gè)30維向量中。

4.2）30維向量
具體來(lái)看每個(gè)網(wǎng)格對應的30維向量中包含了哪些信息。

① 20個(gè)對象分類(lèi)的概率
因為YOLO支持識別20種不同的對象（人、鳥(niǎo)、貓、汽車(chē)、椅子等），所以這里有20個(gè)值表示該網(wǎng)格位置存在任一種對象的概率?？梢杂洖?nbsp;，之所以寫(xiě)成條件概率，意思是如果該網(wǎng)格存在一個(gè)對象Object，那么它是的概率是。（記不清條件概率的同學(xué)可以參考一下理解貝葉斯定理）

② 2個(gè)bounding box的位置
每個(gè)bounding box需要4個(gè)數值來(lái)表示其位置，(Center_x,Center_y,width,height)，即(bounding box的中心點(diǎn)的x坐標，y坐標，bounding box的寬度，高度)，2個(gè)bounding box共需要8個(gè)數值來(lái)表示其位置。

③ 2個(gè)bounding box的置信度
bounding box的置信度 = 該bounding box內存在對象的概率 * 該bounding box與該對象實(shí)際bounding box的IOU用公式來(lái)表示就是：

是bounding box內存在對象的概率，區別于上面第①點(diǎn)的。Pr(Object)并不管是哪個(gè)對象，它體現的是有或沒(méi)有對象的概率。第①點(diǎn)中的意思是假設已經(jīng)有一個(gè)對象在網(wǎng)格中了，這個(gè)對象具體是哪一個(gè)。

是 bounding box 與對象真實(shí)bounding box 的IOU（Intersection over Union，交并比）。要注意的是，現在討論的30維向量中的bounding box是YOLO網(wǎng)絡(luò )的輸出，也就是預測的bounding box。所以體現了預測的bounding box與真實(shí)bounding box的接近程度。
還要說(shuō)明的是，雖然有時(shí)說(shuō)"預測"的bounding box，但這個(gè)IOU是在訓練階段計算的。等到了測試階段（Inference），這時(shí)并不知道真實(shí)對象在哪里，只能完全依賴(lài)于網(wǎng)絡(luò )的輸出，這時(shí)已經(jīng)不需要（也無(wú)法）計算IOU了。

綜合來(lái)說(shuō)，一個(gè)bounding box的置信度Confidence意味著(zhù)它是否包含對象且位置準確的程度。置信度高表示這里存在一個(gè)對象且位置比較準確，置信度低表示可能沒(méi)有對象或者即便有對象也存在較大的位置偏差。

簡(jiǎn)單解釋一下IOU。下圖來(lái)自Andrew Ng的深度學(xué)習課程，IOU=交集部分面積/并集部分面積，2個(gè)box完全重合時(shí)IOU=1，不相交時(shí)IOU=0。

總的來(lái)說(shuō)，30維向量 = 20個(gè)對象的概率 + 2個(gè)bounding box * 4個(gè)坐標 + 2個(gè)bounding box的置信度

4.3）討論
① 一張圖片最多可以檢測出49個(gè)對象
每個(gè)30維向量中只有一組（20個(gè)）對象分類(lèi)的概率，也就只能預測出一個(gè)對象。所以輸出的 7*7=49個(gè) 30維向量，最多表示出49個(gè)對象。

② 總共有 49*2=98 個(gè)候選區（bounding box）
每個(gè)30維向量中有2組bounding box，所以總共是98個(gè)候選區。

③ YOLO的bounding box并不是Faster RCNN的Anchor
Faster RCNN等一些算法采用每個(gè)grid中手工設置n個(gè)Anchor（先驗框，預先設置好位置的bounding box）的設計，每個(gè)Anchor有不同的大小和寬高比。YOLO的bounding box看起來(lái)很像一個(gè)grid中2個(gè)Anchor，但它們不是。YOLO并沒(méi)有預先設置2個(gè)bounding box的大小和形狀，也沒(méi)有對每個(gè)bounding box分別輸出一個(gè)對象的預測。它的意思僅僅是對一個(gè)對象預測出2個(gè)bounding box，選擇預測得相對比較準的那個(gè)。

這里采用2個(gè)bounding box，有點(diǎn)不完全算監督算法，而是像進(jìn)化算法。如果是監督算法，我們需要事先根據樣本就能給出一個(gè)正確的bounding box作為回歸的目標。但YOLO的2個(gè)bounding box事先并不知道會(huì )在什么位置，只有經(jīng)過(guò)前向計算，網(wǎng)絡(luò )會(huì )輸出2個(gè)bounding box，這兩個(gè)bounding box與樣本中對象實(shí)際的bounding box計算IOU。這時(shí)才能確定，IOU值大的那個(gè)bounding box，作為負責預測該對象的bounding box。
訓練開(kāi)始階段，網(wǎng)絡(luò )預測的bounding box可能都是亂來(lái)的，但總是選擇IOU相對好一些的那個(gè)，隨著(zhù)訓練的進(jìn)行，每個(gè)bounding box會(huì )逐漸擅長(cháng)對某些情況的預測（可能是對象大小、寬高比、不同類(lèi)型的對象等）。所以，這是一種進(jìn)化或者非監督學(xué)習的思想。

另外論文中經(jīng)常提到responsible。比如：Our system divides the input image into an S*S grid. If the center of an object falls into a grid cell, that grid cell is responsible for detecting that object. 這個(gè) responsible 有點(diǎn)讓人疑惑，對預測"負責"是啥意思。其實(shí)沒(méi)啥特別意思，就是一個(gè)Object只由一個(gè)grid來(lái)進(jìn)行預測，不要多個(gè)grid都搶著(zhù)預測同一個(gè)Object。更具體一點(diǎn)說(shuō)，就是在設置訓練樣本的時(shí)候，樣本中的每個(gè)Object歸屬到且僅歸屬到一個(gè)grid，即便有時(shí)Object跨越了幾個(gè)grid，也僅指定其中一個(gè)。具體就是計算出該Object的bounding box的中心位置，這個(gè)中心位置落在哪個(gè)grid，該grid對應的輸出向量中該對象的類(lèi)別概率是1（該gird負責預測該對象），所有其它grid對該Object的預測概率設為0（不負責預測該對象）。

還有：YOLO predicts multiple bounding boxes per grid cell. At training time we only want one bounding box predictor to be responsible for each object. 同樣，雖然一個(gè)grid中會(huì )產(chǎn)生2個(gè)bounding box，但我們會(huì )選擇其中一個(gè)作為預測結果，另一個(gè)會(huì )被忽略。下面構造訓練樣本的部分會(huì )看的更清楚。

④ 可以調整網(wǎng)格數量、bounding box數量
7*7網(wǎng)格，每個(gè)網(wǎng)格2個(gè)bounding box，對448*448輸入圖像來(lái)說(shuō)覆蓋粒度有點(diǎn)粗。我們也可以設置更多的網(wǎng)格以及更多的bounding box。設網(wǎng)格數量為 S*S，每個(gè)網(wǎng)格產(chǎn)生B個(gè)邊框，網(wǎng)絡(luò )支持識別C個(gè)不同的對象。這時(shí)，輸出的向量長(cháng)度為：

整個(gè)輸出的tensor就是：

YOLO選擇的參數是 7*7網(wǎng)格，2個(gè)bounding box，20種對象，因此輸出向量長(cháng)度 = 20 + 2 * (4+1) = 30。整個(gè)輸出的tensor就是 7*7*30。

因為網(wǎng)格和bounding box設置的比較稀疏，所以這個(gè)版本的YOLO訓練出來(lái)后預測的準確率和召回率都不是很理想，后續的v2、v3版本還會(huì )改進(jìn)。當然，因為其速度能夠滿(mǎn)足實(shí)時(shí)處理的要求，所以對工業(yè)界還是挺有吸引力的。

5）訓練樣本構造
作為監督學(xué)習，我們需要先構造好訓練樣本，才能讓模型從中學(xué)習。

對于一張輸入圖片，其對應輸出的7*7*30張量（也就是通常監督學(xué)習所說(shuō)的標簽y或者label）應該填寫(xiě)什么數據呢。

首先，輸出的 7*7維度對應于輸入的 7*7 網(wǎng)格；然后具體看下30維向量的填寫(xiě)。

① 20個(gè)對象分類(lèi)的概率
對于輸入圖像中的每個(gè)對象，先找到其中心點(diǎn)。比如圖8中的自行車(chē)，其中心點(diǎn)在黃色圓點(diǎn)位置，中心點(diǎn)落在黃色網(wǎng)格內，所以這個(gè)黃色網(wǎng)格對應的30維向量中，自行車(chē)的概率是1，其它對象的概率是0。所有其它48個(gè)網(wǎng)格的30維向量中，該自行車(chē)的概率都是0。這就是所謂的"中心點(diǎn)所在的網(wǎng)格對預測該對象負責"。狗和汽車(chē)的分類(lèi)概率也是同樣的方法填寫(xiě)。

② 2個(gè)bounding box的位置
訓練樣本的bounding box位置應該填寫(xiě)對象實(shí)際的bounding box，但一個(gè)對象對應了2個(gè)bounding box，該填哪一個(gè)呢？上面討論過(guò)，需要根據網(wǎng)絡(luò )輸出的bounding box與對象實(shí)際bounding box的IOU來(lái)選擇，所以要在訓練過(guò)程中動(dòng)態(tài)決定到底填哪一個(gè)bounding box。參考下面第③點(diǎn)。

③ 2個(gè)bounding box的置信度
上面討論過(guò)置信度公式：

6）損失函數

損失就是網(wǎng)絡(luò )實(shí)際輸出值與樣本標簽值之間的偏差。

YOLO給出的損失函數如下

DenseBox和YOLO的區別：

1.DenseBox最初應用于人臉檢測，相當于只有兩類(lèi)，而YOLO是通用檢測，通常大于兩類(lèi)。
2.DenseBox是密集預測，對每個(gè)pixel進(jìn)行預測，而YOLO先將圖片進(jìn)行網(wǎng)格化，對每個(gè)grid cell進(jìn)行預測，所以前者更適合于小目標，后者更適合于大目標。
3.DenseBox的gt通過(guò)bbox中心圓形區域確定的，而YOLO的gt由bbox中心點(diǎn)落入的grid cell確定的。

CornerNet:

下圖，經(jīng)過(guò)特征提取主干網(wǎng)絡(luò )（主干網(wǎng)絡(luò )為Hourglass-104）后分為兩個(gè)分支（兩個(gè)分支分別接前面提到的corner pooling，隨后細談），一個(gè)分支生成目標左上點(diǎn)熱力圖，一個(gè)分支生成目標右下點(diǎn)熱力圖，而此時(shí)兩個(gè)熱力圖并沒(méi)有建立聯(lián)系，因此無(wú)法確定兩點(diǎn)是夠屬于同一目標，因此兩分支同時(shí)生成embeddings，通過(guò)判斷兩個(gè)embedding vector的相似性確定同一物體（距離小于某一閾值則劃為同一目標）。

1、輸入一張圖像，經(jīng)過(guò)backbone網(wǎng)絡(luò )（Hourglass network）后，得到feature map。
2、將feature map同時(shí)輸入到兩個(gè)branch，分別用于預測Top-Left Corners和Bottom-right Corners。
3、兩個(gè)branch都會(huì )先經(jīng)過(guò)一個(gè)叫Corner Pooling的網(wǎng)絡(luò )，最后輸出三個(gè)結果，分別是Heatmaps、Embeddings、Offsets。
4、根據Heatmaps能夠得到物體的左上角點(diǎn)和右下角點(diǎn)，根據Offsets對左上角和右下角點(diǎn)位置進(jìn)行更加精細的微調，根據Embeddings可以將同一個(gè)物體的左上角和右下角點(diǎn)進(jìn)行匹配。得到到最終的目標框。

1：怎么檢測這個(gè)兩個(gè)點(diǎn)？生成keypoint的heatmap，heatmap中響應值最大的位置就是點(diǎn)的位置。
2：怎么知道這兩個(gè)點(diǎn)所組成的框包含物體的類(lèi)別？每個(gè)heatmaps集合的形式都是CxHxW,其中C代表的是檢測目標的類(lèi)別數，H和W則代表的heatmap的分辨率，Corner響應值最大所在的channel即對應了物體的類(lèi)別。
3：當圖像中有多個(gè)物體時(shí)，怎么知道哪些點(diǎn)可以組成框？（哪些左上角的點(diǎn)和哪些右下角的點(diǎn)能夠組成有效的框）生成embedding向量，用向量的距離衡量?jì)蓚€(gè)Corner是否可以組成對。
4：Loss是什么形式？loss總共分了三個(gè)部分，一部分是用于定位keypoint點(diǎn)的detecting loss，一個(gè)是用于精確定位的offset loss，一個(gè)是用于對Corner點(diǎn)進(jìn)行配對的grouping loss。
5：網(wǎng)絡(luò )結構是怎么樣的？使用Hourglass作為backbone，使用Corner Pooling構造了prediction module，用來(lái)得到最終的結果。
6：有沒(méi)有什么比較新奇的東西？提出的Corner Pooling，第一次使用檢測點(diǎn)的方法檢測物體。

貢獻:
1.通過(guò)檢測bbox的一對角點(diǎn)來(lái)檢測出目標。
2.提出corner pooling，來(lái)更好的定位bbox的角點(diǎn)。

上圖是top-left corner的 Corner Pooling過(guò)程。在水平方向，從最右端開(kāi)始往最左端遍歷，每個(gè)位置的值都變成從最右到當前位置為止，出現的最大的值。同理，bottom-right corner的Corner Pooling則是最左端開(kāi)始往最右端遍歷。同樣的，在垂直方向上，也是這樣同樣的Pooling的方式。
以左上角點(diǎn)為例，當我們決定此點(diǎn)是否個(gè)corner點(diǎn)的時(shí)候，往往會(huì )沿著(zhù)水平的方向向右看，看看是否與物體有相切，還會(huì )沿著(zhù)垂直方向向下看，看看是否與物體相切。簡(jiǎn)而言之，其實(shí)corner點(diǎn)是物體上邊緣點(diǎn)和坐邊緣點(diǎn)的集合，因此在pooling的時(shí)候通過(guò)Corner Pooling的方式能夠一定程度上體現出當前點(diǎn)出發(fā)的射線(xiàn)是否與物體相交。

ExtremeNet:

作者使用了最佳的關(guān)鍵點(diǎn)估計框架，通過(guò)對每個(gè)目標類(lèi)預測4個(gè)多峰值的heatmaps來(lái)尋找極值點(diǎn)。另外，作者使用每個(gè)類(lèi)center heatmap來(lái)預測目標中心。僅通過(guò)基于幾何的方法來(lái)對極值點(diǎn)分組，如果4個(gè)極值點(diǎn)的幾何中點(diǎn)在center map上對應的分數高于閾值，則這4個(gè)極值點(diǎn)分為一組。
offset的預測是類(lèi)別無(wú)關(guān)的，而極值點(diǎn)的預測是類(lèi)別相關(guān)的。對每種極值點(diǎn)heatmap，不包含center map，預測2張offset map（分別對應XY軸方向）。網(wǎng)絡(luò )的輸出是5xC heatmaps和4x2offset maps，C是類(lèi)別數。
分組算法的輸入是每個(gè)類(lèi)的5個(gè)heatmaps，一個(gè)center heatmap和4個(gè)extreme heatmaps，通過(guò)檢測所有的峰值來(lái)提取出5個(gè)heatmaps的關(guān)鍵點(diǎn)。給出4個(gè)極值點(diǎn)，計算幾何中心，如果幾何中心在center map上對應高響應，那么這4個(gè)極值點(diǎn)為有效檢測。作者使用暴力枚舉的方式來(lái)得到所有有效的4個(gè)關(guān)鍵點(diǎn)。
貢獻：
1.將關(guān)鍵點(diǎn)定義為極值點(diǎn)。
2.根據幾何結構對關(guān)鍵點(diǎn)進(jìn)行分組。

CornerNet和ExtremeNet的區別：

1.CornerNet通過(guò)預測角點(diǎn)來(lái)檢測目標的，而ExtremeNet通過(guò)預測極值點(diǎn)和中心點(diǎn)來(lái)檢測目標的。

2.CornerNet通過(guò)角點(diǎn)embedding之間的距離來(lái)判斷是否為同一組關(guān)鍵點(diǎn)，而ExtremeNet通過(guò)暴力枚舉極值點(diǎn)、經(jīng)過(guò)中心點(diǎn)判斷4個(gè)極值點(diǎn)是否為一組。

FSAF:

讓每個(gè)實(shí)例選擇最好的特征層來(lái)優(yōu)化網(wǎng)絡(luò )，因此不需要anchor來(lái)限制特征的選擇。

一個(gè)anchor-free的分支在每個(gè)特征金字塔層構建，獨立于anchor-based的分支。和anchor-based分支相似，anchor-free分支由分類(lèi)子網(wǎng)絡(luò )和回歸子網(wǎng)絡(luò )。一個(gè)實(shí)例能夠被安排到任意層的anchor-free分支。訓練期間，基于實(shí)例的信息而不是實(shí)例box的尺寸來(lái)動(dòng)態(tài)地為每個(gè)實(shí)例選擇最合適的特征層。選擇的特征層學(xué)會(huì )檢測安排的實(shí)例。推理階段，FSAF模塊和anchor-based分支獨立或者聯(lián)合運行。

在RetinaNet的基礎上，FSAF模塊引入了2個(gè)額外的卷積層，這兩個(gè)卷積層各自負責anchor-free分支的分類(lèi)和回歸預測。具體的，在分類(lèi)子網(wǎng)絡(luò )中，feature map后面跟著(zhù)K個(gè)3x3的卷積層和sigmoid，在回歸子網(wǎng)絡(luò )中，feature map后面跟著(zhù)4個(gè)3x3的卷積層和ReLU。

實(shí)例輸入到特征金字塔的所有層，然后求得所有anchor-free分支focal loss和IoU loss的和，選擇loss和最小的特征層來(lái)學(xué)習實(shí)例。訓練時(shí)，特征根據安排的實(shí)例進(jìn)行更新。推理時(shí)，不需要進(jìn)行特征更新，因為最合適的特征金字塔層自然地輸出高置信分數。

FCOS:

和語(yǔ)義分割相同，檢測器直接將位置作為訓練樣本而不是anchor。具體的，如果某個(gè)位置落入了任何gt中，那么該位置就被認為是正樣本，并且類(lèi)別為該gt的類(lèi)別?；赼nchor的檢測器，根據不同尺寸安排anchor到不同的特征層，而FCOS直接限制邊界框回歸的范圍(即每個(gè)feature map負責一定尺度的回歸框)。

Center-ness：

為了剔除遠離目標中心的低質(zhì)量預測bbox，作者提出了添加center-ness分支，和分類(lèi)分支并行。

優(yōu)點(diǎn)：
1.將檢測和其他使用FCN的任務(wù)統一起來(lái)，容易重用這些任務(wù)的思想。
2.proposal free和anchor free，減少了超參的設計。
3.不使用trick，達到了單階段檢測的最佳性能。
4.經(jīng)過(guò)小的修改，可以立即拓展到其他視覺(jué)任務(wù)上。

FoveaBox:

人類(lèi)眼睛的中央凹：視野(物體)的中心具有最高的視覺(jué)敏銳度。FoveaBox聯(lián)合預測對象中心區域可能存在的位置以及每個(gè)有效位置的邊界框。由于特征金字塔的特征表示，不同尺度的目標可以從多個(gè)特征層中檢測到。

FoveaBox添加了2個(gè)子網(wǎng)絡(luò )，一個(gè)子網(wǎng)絡(luò )預測分類(lèi)，另一個(gè)子網(wǎng)絡(luò )預測bbox。

Object Fovea：

目標的中央凹如上圖所示。目標中央凹只編碼目標對象存在的概率。為了確定位置，模型要預測每個(gè)潛在實(shí)例的邊界框。

FSAF、FCOS、FoveaBox的異同點(diǎn)：

1.都利用FPN來(lái)進(jìn)行多尺度目標檢測。
2.都將分類(lèi)和回歸解耦成2個(gè)子網(wǎng)絡(luò )來(lái)處理。
3.都是通過(guò)密集預測進(jìn)行分類(lèi)和回歸的。
4.FSAF和FCOS的回歸預測的是到4個(gè)邊界的距離，而FoveaBox的回歸預測的是一個(gè)坐標轉換。
5.FSAF通過(guò)在線(xiàn)特征選擇的方式，選擇更加合適的特征來(lái)提升性能，FCOS通過(guò)center-ness分支剔除掉低質(zhì)量bbox來(lái)提升性能，FoveaBox通過(guò)只預測目標中心區域來(lái)提升性能。

總結：
1.各種方法的關(guān)鍵在于gt如何定義
2.主要是基于關(guān)鍵點(diǎn)檢測的方法和密集預測的方法來(lái)做Anchor-Free
3.本質(zhì)上是將基于anchor轉換成了基于point/region

下一期我們詳細說(shuō)說(shuō)商湯的《CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection》，基于向心偏移的anchor-free目標檢測網(wǎng)絡(luò )centripetalnet，為基于關(guān)鍵點(diǎn)的目標檢測方法研究帶來(lái)了新思路。

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

雙控開(kāi)關(guān)相關(guān)文章:雙控開(kāi)關(guān)原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

“破局AI開(kāi)發(fā)，釋放邊緣算力開(kāi)發(fā)者訪(fǎng)談”，干貨滿(mǎn)滿(mǎn)！

視頻 intel AI OpenVINO | 2021-06-10

海聯(lián)達（Aigale）Ai-HD1 無(wú)線(xiàn)全高清套件拆解

zhuwei0710 | 2013-04-28

瑞薩電子AI單元解決方案成功提高GE醫療（日本）日野工廠(chǎng)的生產(chǎn)力

winni945 | 2018-09-12

如何快速搭建手寫(xiě)體識別演示系統

視頻 digikey AI 手寫(xiě)體識別 | 2022-07-29

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

蘋(píng)果表示其AI模型是在谷歌的定制芯片上訓練的

智能計算 AI | 2024-07-30

加大調整力度，教育部支持高校布局集成電路、AI 等專(zhuān)業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

WTC-AI型太陽(yáng)能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽(yáng)能熱水器電路熱水器 | 2012-07-30

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

WTC-AI太陽(yáng)能熱水器電路圖

設計方案 WTC-AI 太陽(yáng)能熱水器電路圖 | 2012-07-24

AI+機器視覺(jué)成趨勢，圖文詳解N大應用場(chǎng)景

智能計算安森美 AI 機器視覺(jué) | 2024-07-31

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來(lái)頭？

視頻 AI 機器人 | 2021-02-26

AI驅動(dòng)的嵌入式聲音和振動(dòng)識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

Nvidia的CEO談AI的未來(lái)：“我們將需要三臺電腦... 一臺來(lái)創(chuàng )建AI... 一臺來(lái)模擬AI... 一臺來(lái)運行AI”

智能計算 AI | 2024-07-31

釋說(shuō)芯語(yǔ)16：硬科技：構建企業(yè)未來(lái)之路（附PPT）

jackwang | 2018-10-22

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達創(chuàng )造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

萬(wàn)家樂(lè )JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬(wàn)家樂(lè ) | 2013-01-17

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

蘋(píng)果承認：AI模型使用谷歌定制芯片訓練

智能計算蘋(píng)果 AI 谷歌定制芯片 | 2024-07-30

CSR8670CSR8675智能語(yǔ)音Alexa藍牙方案開(kāi)發(fā)

資源下載 AI 智能語(yǔ)音 | 2017-12-14

iPhone 16將不會(huì )預裝AI功能？計劃通過(guò)iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

國際奧委會(huì )：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會(huì ) 體育 | 2024-07-26

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過(guò) Meta AI 模型安全系統

智能計算 Meta AI | 2024-07-31

大嘴業(yè)話(huà)-AI目前市場(chǎng)分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>