<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 計算機視覺(jué)研究院出品：目標檢測的細節，你到底知道多少？

計算機視覺(jué)研究院出品：目標檢測的細節，你到底知道多少？

發(fā)布人：CV研究院時(shí)間：2021-08-03 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

現在目標檢測發(fā)展應該到了一個(gè)瓶頸，但是現存很多很多優(yōu)質(zhì)的檢測框架，尤其是針對于大目標的檢測，比如人、汽車(chē)和常見(jiàn)動(dòng)物，但另一方面，小目標檢測仍然是現在亟待解決的問(wèn)題。

那這么多檢測框，你到底對其內部知道多少？你又忽略了多少細節呢？

1 背景

現在目標檢測大部分就是如上圖案例，針對較大目標還是可以精確檢測到，然后利用檢測到的物體進(jìn)行下一步的輸入，每個(gè)行業(yè)的場(chǎng)景使用不同，所以檢測也是視覺(jué)的基石！

現在的目標檢測框架都是基于卷積網(wǎng)絡(luò )的。這是一種非常強大的方法，因為它能夠將RGB圖像抽象成高級語(yǔ)義的深度特征，也可以將創(chuàng )造一些低級的圖像抽象，如線(xiàn)，圓圈，然后將它們“迭代組合”成框架想要檢測的目標，但這也是它們難以檢測小目標的原因。

2 經(jīng)典框架回顧

目標檢測領(lǐng)域研究的你，應該對上圖的發(fā)展史耳熟能詳，這都是經(jīng)典檢測框架的鼻祖，也是現在目標檢測可以飛速發(fā)展的源頭，所有我們應該將最基礎的再好好溫故下。

DPM

說(shuō)到DPM，讓我想到研究生搞學(xué)術(shù)第一個(gè)接觸到的算法。

DPM算法采用了改進(jìn)后的HOG特征，SVM分類(lèi)器和滑動(dòng)窗口（Sliding Windows）檢測思想，針對目標的多視角問(wèn)題，采用了多組件（Component）的策略，針對目標本身的形變問(wèn)題，采用了基于圖結構（Pictorial Structure）的部件模型策略。此外，將樣本的所屬的模型類(lèi)別，部件模型的位置等作為潛變量（Latent Variable），采用多示例學(xué)習（Multiple-instance Learning）來(lái)自動(dòng)確定。

通過(guò)Hog特征模板來(lái)刻畫(huà)每一部分，然后進(jìn)行匹配。并且采用了金字塔，即在不同的分辨率上提取Hog特征。

利用提出的Deformable PartModel，在進(jìn)行object detection時(shí)，detect window的得分等于part的匹配得分減去模型變化的花費。

在訓練模型時(shí)，需要訓練得到每一個(gè)part的Hog模板，以及衡量part位置分布cost的參數。文章中提出了LatentSVM方法，將deformable part model的學(xué)習問(wèn)題轉換為一個(gè)分類(lèi)問(wèn)題：利用SVM學(xué)習，將part的位置分布作為latent values，模型的參數轉化為SVM的分割超平面。具體實(shí)現中，作者采用了迭代計算的方法，不斷地更新模型。

RCNN

RCNN應該是檢測正則崛起的源頭，這個(gè)網(wǎng)絡(luò )的出世真的轟動(dòng)了真個(gè)CV圈，不管是誰(shuí)，都看過(guò)原論文，仿真過(guò)的吧！一開(kāi)始仿真是真的坑，各種問(wèn)題，在此建議新手一定要自己動(dòng)手來(lái)一遍。

這個(gè)算法是真的機智！在大家還摸不著(zhù)思緒的時(shí)候，就想出這種經(jīng)典框架。在原圖上，通過(guò)各種窮舉法獲取各種候選的邊界框，然后通過(guò)深度學(xué)習CNN獲取的高級語(yǔ)義特征，這些特征分別送入多個(gè)SVM分類(lèi)，回歸修正boundingbox，最后使用NMS和邊緣檢測再次修正，整個(gè)過(guò)程如上圖所示。它的缺點(diǎn)也很明顯，候選區域重復提取特征導致速度很慢。

Faster-RCNN

肯定有人會(huì )問(wèn)為啥跳過(guò)好幾個(gè)框架，因為那幾個(gè)都是小改進(jìn)大作用。就在Faster RCNN框架中一起介紹了。

為了解決速度慢，SPPNet在最后一個(gè)卷積層后設計了空間金字塔池化層，這樣網(wǎng)絡(luò )輸入可以不是一個(gè)固定的尺寸，能最大程度避免拉伸、裁剪造成圖像的信息損失。建立原始圖像部分區域與提取特征的映射關(guān)系，對于給定區域，可以直接計算特征，避免重復卷積。

于是Fast RCNN出現了，整個(gè)過(guò)程如上圖所示，與RCNN的不同在于有三個(gè)方面，加入了RoI pooling layer，這層與SPPNet的池化層作用相同；在充分實(shí)驗的基礎上，將SVM換成softmax；把分類(lèi)和boundingbox回歸放在同一個(gè)網(wǎng)絡(luò )的后面進(jìn)行，大幅減少了計算開(kāi)銷(xiāo)。它的優(yōu)點(diǎn)在于避免重復卷積，同時(shí)整合了多個(gè)任務(wù)，計算效率進(jìn)一步提升?，F在整個(gè)網(wǎng)絡(luò )的架構和優(yōu)化已基本完成，制約速度的關(guān)鍵在于候選區域的生成。

后來(lái)的Faster RCNN，它的核心思想是將候選區域生成也交給網(wǎng)絡(luò )來(lái)做。候選區域生成網(wǎng)絡(luò )本質(zhì)上也是一個(gè)Fast RCNN，它的輸入是預先設置好的圖像中的一個(gè)區域，輸出是該區域屬于前景還是背景和修正后的區域。這樣的方法只指定了少數幾個(gè)可能為目標的區域，無(wú)論是比起滑窗，還是比起過(guò)分割，都快上了很多。

通過(guò)這一系列工作，網(wǎng)絡(luò )的作用由單純提取特征演化為完成目標檢測整個(gè)流程的一種深度架構，目標檢測的精度和速度也一再提高。但是關(guān)于Faster RCNN系列的工作也遇到了問(wèn)題，以分類(lèi)問(wèn)題對待目標檢測暫時(shí)沒(méi)有什么突破點(diǎn)，所以大家都在考慮以最開(kāi)始的將目標檢測單純作為回歸問(wèn)題的思路進(jìn)行研究。所以就出現了One Stage框架！

Yolo

上面介紹的框架，缺點(diǎn)在于將檢測問(wèn)題轉化成了對圖片局部區域的分類(lèi)問(wèn)題后，不能充分利用圖片局部目標在整個(gè)圖片中的上下文信息，于是出現了一種將目標檢測作為回歸問(wèn)題的方法YOLO，整個(gè)過(guò)程如下圖所示。

將圖像分成多個(gè)網(wǎng)格，分別回歸boundingbox和信任值，最后以NMS過(guò)濾掉低分box。YOLO缺點(diǎn)在于對靠得很近的物體檢測效果不好，泛化能力弱，由于損失函數的問(wèn)題，定位誤差是影響檢測效果的主要原因。即使YOLO目前還不完善，即使它比不上已經(jīng)非常完善的Faster RCNN，但它的速度和精度都要好于人工特征的方法，一旦解決了這些問(wèn)題，性能將具有非常大的上升空間。

3 問(wèn)題分析

簡(jiǎn)單回顧下檢測框架，可以發(fā)現基本都是考慮效率和精度，但是從哪些方面考慮呢？有些人是從頭開(kāi)始處理，有些人從中間產(chǎn)物各種處理，還有一批人從尾處理。以至于現在出現了各種各樣眼花繚亂的檢測框架，今天我來(lái)說(shuō)最近比較火的幾個(gè)框架，基于他們分析下檢測過(guò)程到底需要考慮哪些因素？

現在比較流程的就是在FPN中優(yōu)化，比如論文"Extended Feature Pyramid Network for Small Object Detection"，盡管在特征金字塔網(wǎng)絡(luò )中進(jìn)行尺度級別的相應檢測可以緩解此問(wèn)題，但各種尺度的特征耦合仍然會(huì )損害小目標檢測的性能。

EFPN

浙大的研究員，他們提出了擴展特征金字塔網(wǎng)絡(luò )（EFPN），它具有專(zhuān)門(mén)用于小目標檢測的超高分辨率金字塔層。具體來(lái)說(shuō)，其設計了一個(gè)模塊，稱(chēng)為特征紋理遷移（FTT，feature texture transfer），該模塊用于超分辨率特征并同時(shí)提取可信的區域細節。

此外，還設計了前景-背景之間平衡（foreground-background-balanced）的損失函數來(lái)減輕前景和背景的面積不平衡問(wèn)題。

其中，EFPN的前4層是vanilla FPN層。FTT模塊集成了P3中的語(yǔ)義內容和P2的區域紋理。然后，類(lèi)似FPN的自頂向下路徑將FTT模塊輸出向下傳遞，形成最終的擴展金字塔層P'2。擴展的特征金字塔（P'2，P2，P3，P4，P5）被饋送到后續的檢測器，以進(jìn)行進(jìn)一步的目標定位和分類(lèi)。頂部4層金字塔自頂向下構成，用于中型和大型目標檢測。EFPN的底部擴展在圖中包含一個(gè)FTT模塊，一個(gè)自上而下的路徑和一個(gè)紫色金字塔層，旨在捕獲小目標的區域細節。

更具體地講，在擴展中，SR模塊FTT將圖中綠色-黃色層表示的EFPN第三層-第四層金字塔混合，產(chǎn)生具有所選區域信息的中間特征P'3，圖中用藍色菱形表示。然后，自上而下的路徑將P'3與定制的高分辨率CNN特征圖C'2合并，生成最終的擴展金字塔層P'2。

小目標檢測的難度在于目標很小，其特征比較淺（如亮度/邊緣信息等），語(yǔ)義信息較少；另外小目標和背景之間尺寸不均衡，用較小的感受野去關(guān)注其特征的話(huà)，很難提取全局語(yǔ)義信息；用較大感受野去關(guān)注背景信息的話(huà)，那么小目標的特征會(huì )丟失信息。以下一些思路是現在提升的技巧：

數據增強

特征融合

利用上下文信息，或者目標之間建立聯(lián)系

GAN

提升圖像分辨率

ROI pooling被ROI align替換

多尺度空間融合

錨點(diǎn)設計

匹配策略，不用IoU

YOLO Nano

比Tiny YOLOv3小8倍，性能提升11個(gè)點(diǎn)的Yolo Nano。通過(guò)設計用于處理目標檢測的深卷積神經(jīng)網(wǎng)絡(luò )，在這一領(lǐng)域取得了長(cháng)足的進(jìn)展和成功。盡管取得了這些成功，但在邊緣和移動(dòng)場(chǎng)景中廣泛部署此類(lèi)對象檢測網(wǎng)絡(luò )面臨的最大挑戰之一是高計算和內存需求。因此，針對邊緣和移動(dòng)應用的高效深層神經(jīng)網(wǎng)絡(luò )體系結構的設計越來(lái)越受到人們的關(guān)注。

我們將介紹一種高度緊密的深度卷積神經(jīng)網(wǎng)路YOLO Nano，來(lái)完成目標檢測的任務(wù)。利用人機協(xié)同設計策略創(chuàng )建YOLO Nano，其中基于YOLO系列單鏡頭目標檢測網(wǎng)絡(luò )架構的設計原則的原則性網(wǎng)絡(luò )設計原型，與machine driven設計探索相結合，創(chuàng )建一個(gè)具有高度定制模塊級宏體系結構和為嵌入式目標檢測任務(wù)定制的微體系結構設計的緊湊網(wǎng)絡(luò )。所提出的YOLO Nano只有4MB的模型大??！

雖然前面介紹的網(wǎng)絡(luò )展示了最先進(jìn)的目標檢測性能，但由于計算和內存限制，它們在邊緣和移動(dòng)設備上部署是非常具有挑戰性的，甚至是不可能的。事實(shí)上，在嵌入式處理器上運行時(shí)，即使是更快的變體，在低的單位數幀速率下也有推斷速度。這極大地限制了此類(lèi)網(wǎng)絡(luò )在無(wú)人機、視頻監控、需要本地嵌入式處理的自動(dòng)駕駛等廣泛應用中的廣泛應用。

YOLO Nano的第一個(gè)設計階段是一個(gè)原則性的網(wǎng)絡(luò )設計原型階段，在這個(gè)階段中，根據人類(lèi)驅動(dòng)的設計原則創(chuàng )建一個(gè)初始的網(wǎng)絡(luò )設計原型，以指導機器驅動(dòng)的設計探索階段。

更具體地說(shuō)，構建了一個(gè)初始的網(wǎng)絡(luò )設計原型，該原型基于YOLO系列單點(diǎn)架構的設計原則。YOLO網(wǎng)絡(luò )體系結構家族的一個(gè)突出特點(diǎn)是，與基于區域建議的網(wǎng)絡(luò )不同，基于區域候選的網(wǎng)絡(luò )依賴(lài)于構建區域候選網(wǎng)絡(luò )來(lái)生成場(chǎng)景中目標所在位置的建議，然后對生成的建議進(jìn)行分類(lèi)，相反，它們利用單一的網(wǎng)絡(luò )架構來(lái)處理輸入圖像并生成輸出結果。因此，針對單個(gè)圖像的所有目標檢測預測都是在單個(gè)前向過(guò)程中進(jìn)行的，而對于基于區域候選的網(wǎng)絡(luò )，需要執行數百到數千個(gè)過(guò)程才能得到最終結果。這使得YOLO系列網(wǎng)絡(luò )架構的運行速度大大加快，因此更適合于嵌入式對象檢測。

現在出現的網(wǎng)絡(luò )都是走輕量級路線(xiàn)，為了更好的部署，這也是一個(gè)趨勢，因為不能總是停留在理論的假想中。

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

隔離器相關(guān)文章:隔離器原理
電機保護器相關(guān)文章:電機保護器原理
電抗器相關(guān)文章:電抗器原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 深度學(xué)習

相關(guān)推薦

基于深度學(xué)習的智能電網(wǎng)短期日負荷曲線(xiàn)預測系統設計與實(shí)現

智能計算 202302 深度學(xué)習短期負荷預測卷積神經(jīng)網(wǎng)絡(luò ) 長(cháng)短期記憶網(wǎng)格 Flask | 2023-02-27

基于深度學(xué)習的跌倒檢測技術(shù)對比與分析*

智能計算深度學(xué)習跌倒檢測卷積神經(jīng)網(wǎng)絡(luò ) 長(cháng)短期記憶網(wǎng)絡(luò ) 202212 | 2022-12-22

深度強化學(xué)習核心技術(shù)開(kāi)發(fā)與應用

szhlss123 | 2022-08-10

一種改進(jìn)的可遷移深度學(xué)習模型*

智能計算 202210 可遷移深度學(xué)習無(wú)標簽 | 2022-10-25

為什么深度學(xué)習如此容易被愚弄？AI研究員正努力修復神經(jīng)網(wǎng)絡(luò )缺陷

智能計算 DNN 深度神經(jīng)網(wǎng)絡(luò ) 深度學(xué)習 | 2022-07-05

直覺(jué)有害！Facbook最新研究：易于解釋的神經(jīng)元會(huì )誤導DNN的學(xué)習

智能計算 DNN 深度神經(jīng)網(wǎng)絡(luò ) 深度學(xué)習 | 2022-07-05

深度學(xué)習（人工神經(jīng)網(wǎng)絡(luò )的研究的概念）

大綠葉 | 2020-07-28

TFLite模型的開(kāi)盲盒體驗

嵌入式系統 TFLite 模型推理庫深度學(xué)習 | 2024-05-10

視覺(jué)慣性導航融合算法研究進(jìn)展

物聯(lián)網(wǎng)與傳感器 202302 視覺(jué)慣性導航優(yōu)化耦合算法深度學(xué)習 | 2023-02-21

深度學(xué)習模型的云邊協(xié)同訓練和部署*

智能計算云邊協(xié)同深度學(xué)習服務(wù)器部署 202212 | 2022-12-22

深度學(xué)習（DeepLearning）

szhlss123 | 2022-08-17

AI深度學(xué)習

loof_lripa | 2024-04-20

射頻系統的深度學(xué)習

資源下載 ADI RF DSP 深度學(xué)習 | 2020-04-20

什么是人機交互技術(shù)？

龍騰AI技術(shù) | 2022-11-02

Deep Learning中文版

資源下載深度學(xué)習中文 | 2019-06-11

基于圖結構的圖像注意力網(wǎng)絡(luò )

智能計算 202207 深度學(xué)習注意力機制圖像分類(lèi) 人臉識別 | 2022-07-26

Firefly DL小巧輕便，嵌入式深度學(xué)習加速部署

智能計算 Firefly DL 深度學(xué)習人工智能 | 2023-12-22

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>