<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 計算機視覺(jué)研究院出品:目標檢測的細節,你到底知道多少?

計算機視覺(jué)研究院出品:目標檢測的細節,你到底知道多少?

發(fā)布人:CV研究院 時(shí)間:2021-08-03 來(lái)源:工程師 發(fā)布文章

現在目標檢測發(fā)展應該到了一個(gè)瓶頸,但是現存很多很多優(yōu)質(zhì)的檢測框架,尤其是針對于大目標的檢測,比如人、汽車(chē)和常見(jiàn)動(dòng)物,但另一方面,小目標檢測仍然是現在亟待解決的問(wèn)題。

那這么多檢測框,你到底對其內部知道多少?你又忽略了多少細節呢?

1 背景

1.png

現在目標檢測大部分就是如上圖案例,針對較大目標還是可以精確檢測到,然后利用檢測到的物體進(jìn)行下一步的輸入,每個(gè)行業(yè)的場(chǎng)景使用不同,所以檢測也是視覺(jué)的基石!

2.png

現在的目標檢測框架都是基于卷積網(wǎng)絡(luò )的。這是一種非常強大的方法,因為它能夠將RGB圖像抽象成高級語(yǔ)義的深度特征,也可以將創(chuàng )造一些低級的圖像抽象,如線(xiàn),圓圈,然后將它們“迭代組合”成框架想要檢測的目標,但這也是它們難以檢測小目標的原因。

3.jpg4.jpg

2 經(jīng)典框架回顧

5.jpg

目標檢測領(lǐng)域研究的你,應該對上圖的發(fā)展史耳熟能詳,這都是經(jīng)典檢測框架的鼻祖,也是現在目標檢測可以飛速發(fā)展的源頭,所有我們應該將最基礎的再好好溫故下。

DPM

說(shuō)到DPM,讓我想到研究生搞學(xué)術(shù)第一個(gè)接觸到的算法。

6.jpg

DPM算法采用了改進(jìn)后的HOG特征,SVM分類(lèi)器和滑動(dòng)窗口(Sliding Windows)檢測思想,針對目標的多視角問(wèn)題,采用了多組件(Component)的策略,針對目標本身的形變問(wèn)題,采用了基于圖結構(Pictorial Structure)的部件模型策略。此外,將樣本的所屬的模型類(lèi)別,部件模型的位置等作為潛變量(Latent Variable),采用多示例學(xué)習(Multiple-instance Learning)來(lái)自動(dòng)確定。

通過(guò)Hog特征模板來(lái)刻畫(huà)每一部分,然后進(jìn)行匹配。并且采用了金字塔,即在不同的分辨率上提取Hog特征。

利用提出的Deformable PartModel,在進(jìn)行object detection時(shí),detect window的得分等于part的匹配得分減去模型變化的花費。

在訓練模型時(shí),需要訓練得到每一個(gè)part的Hog模板,以及衡量part位置分布cost的參數。文章中提出了LatentSVM方法,將deformable part model的學(xué)習問(wèn)題轉換為一個(gè)分類(lèi)問(wèn)題:利用SVM學(xué)習,將part的位置分布作為latent values,模型的參數轉化為SVM的分割超平面。具體實(shí)現中,作者采用了迭代計算的方法,不斷地更新模型。

RCNN

RCNN應該是檢測正則崛起的源頭,這個(gè)網(wǎng)絡(luò )的出世真的轟動(dòng)了真個(gè)CV圈,不管是誰(shuí),都看過(guò)原論文,仿真過(guò)的吧!一開(kāi)始仿真是真的坑,各種問(wèn)題,在此建議新手一定要自己動(dòng)手來(lái)一遍。

7.png

這個(gè)算法是真的機智!在大家還摸不著(zhù)思緒的時(shí)候,就想出這種經(jīng)典框架。在原圖上,通過(guò)各種窮舉法獲取各種候選的邊界框,然后通過(guò)深度學(xué)習CNN獲取的高級語(yǔ)義特征,這些特征分別送入多個(gè)SVM分類(lèi),回歸修正boundingbox,最后使用NMS和邊緣檢測再次修正,整個(gè)過(guò)程如上圖所示。它的缺點(diǎn)也很明顯,候選區域重復提取特征導致速度很慢。

Faster-RCNN

肯定有人會(huì )問(wèn)為啥跳過(guò)好幾個(gè)框架,因為那幾個(gè)都是小改進(jìn)大作用。就在Faster RCNN框架中一起介紹了。

為了解決速度慢,SPPNet在最后一個(gè)卷積層后設計了空間金字塔池化層,這樣網(wǎng)絡(luò )輸入可以不是一個(gè)固定的尺寸,能最大程度避免拉伸、裁剪造成圖像的信息損失。建立原始圖像部分區域與提取特征的映射關(guān)系,對于給定區域,可以直接計算特征,避免重復卷積。

8.png

于是Fast RCNN出現了,整個(gè)過(guò)程如上圖所示,與RCNN的不同在于有三個(gè)方面,加入了RoI pooling layer,這層與SPPNet的池化層作用相同;在充分實(shí)驗的基礎上,將SVM換成softmax;把分類(lèi)和boundingbox回歸放在同一個(gè)網(wǎng)絡(luò )的后面進(jìn)行,大幅減少了計算開(kāi)銷(xiāo)。它的優(yōu)點(diǎn)在于避免重復卷積,同時(shí)整合了多個(gè)任務(wù),計算效率進(jìn)一步提升?,F在整個(gè)網(wǎng)絡(luò )的架構和優(yōu)化已基本完成,制約速度的關(guān)鍵在于候選區域的生成。

9.png

后來(lái)的Faster RCNN,它的核心思想是將候選區域生成也交給網(wǎng)絡(luò )來(lái)做。候選區域生成網(wǎng)絡(luò )本質(zhì)上也是一個(gè)Fast RCNN,它的輸入是預先設置好的圖像中的一個(gè)區域,輸出是該區域屬于前景還是背景和修正后的區域。這樣的方法只指定了少數幾個(gè)可能為目標的區域,無(wú)論是比起滑窗,還是比起過(guò)分割,都快上了很多。

通過(guò)這一系列工作,網(wǎng)絡(luò )的作用由單純提取特征演化為完成目標檢測整個(gè)流程的一種深度架構,目標檢測的精度和速度也一再提高。但是關(guān)于Faster RCNN系列的工作也遇到了問(wèn)題,以分類(lèi)問(wèn)題對待目標檢測暫時(shí)沒(méi)有什么突破點(diǎn),所以大家都在考慮以最開(kāi)始的將目標檢測單純作為回歸問(wèn)題的思路進(jìn)行研究。所以就出現了One Stage框架!

Yolo

上面介紹的框架,缺點(diǎn)在于將檢測問(wèn)題轉化成了對圖片局部區域的分類(lèi)問(wèn)題后,不能充分利用圖片局部目標在整個(gè)圖片中的上下文信息,于是出現了一種將目標檢測作為回歸問(wèn)題的方法YOLO,整個(gè)過(guò)程如下圖所示。

10.jpg

將圖像分成多個(gè)網(wǎng)格,分別回歸boundingbox和信任值,最后以NMS過(guò)濾掉低分box。YOLO缺點(diǎn)在于對靠得很近的物體檢測效果不好,泛化能力弱,由于損失函數的問(wèn)題,定位誤差是影響檢測效果的主要原因。即使YOLO目前還不完善,即使它比不上已經(jīng)非常完善的Faster RCNN,但它的速度和精度都要好于人工特征的方法,一旦解決了這些問(wèn)題,性能將具有非常大的上升空間。

3 問(wèn)題分析

簡(jiǎn)單回顧下檢測框架,可以發(fā)現基本都是考慮效率和精度,但是從哪些方面考慮呢?有些人是從頭開(kāi)始處理,有些人從中間產(chǎn)物各種處理,還有一批人從尾處理。以至于現在出現了各種各樣眼花繚亂的檢測框架,今天我來(lái)說(shuō)最近比較火的幾個(gè)框架,基于他們分析下檢測過(guò)程到底需要考慮哪些因素?

現在比較流程的就是在FPN中優(yōu)化,比如論文"Extended Feature Pyramid Network for Small Object Detection",盡管在特征金字塔網(wǎng)絡(luò )中進(jìn)行尺度級別的相應檢測可以緩解此問(wèn)題,但各種尺度的特征耦合仍然會(huì )損害小目標檢測的性能。

EFPN

浙大的研究員,他們提出了擴展特征金字塔網(wǎng)絡(luò )(EFPN),它具有專(zhuān)門(mén)用于小目標檢測的超高分辨率金字塔層。具體來(lái)說(shuō),其設計了一個(gè)模塊,稱(chēng)為特征紋理遷移(FTT,feature texture transfer),該模塊用于超分辨率特征并同時(shí)提取可信的區域細節。

11.png

此外,還設計了前景-背景之間平衡(foreground-background-balanced)的損失函數來(lái)減輕前景和背景的面積不平衡問(wèn)題。

其中,EFPN的前4層是vanilla FPN層。FTT模塊集成了P3中的語(yǔ)義內容和P2的區域紋理。然后,類(lèi)似FPN的自頂向下路徑將FTT模塊輸出向下傳遞,形成最終的擴展金字塔層P'2。擴展的特征金字塔(P'2,P2,P3,P4,P5)被饋送到后續的檢測器,以進(jìn)行進(jìn)一步的目標定位和分類(lèi)。頂部4層金字塔自頂向下構成,用于中型和大型目標檢測。EFPN的底部擴展在圖中包含一個(gè)FTT模塊,一個(gè)自上而下的路徑和一個(gè)紫色金字塔層,旨在捕獲小目標的區域細節。

12.png

更具體地講,在擴展中,SR模塊FTT將圖中綠色-黃色層表示的EFPN第三層-第四層金字塔混合,產(chǎn)生具有所選區域信息的中間特征P'3,圖中用藍色菱形表示。然后,自上而下的路徑將P'3與定制的高分辨率CNN特征圖C'2合并,生成最終的擴展金字塔層P'2。

小目標檢測的難度在于目標很小,其特征比較淺(如亮度/邊緣信息等),語(yǔ)義信息較少;另外小目標和背景之間尺寸不均衡,用較小的感受野去關(guān)注其特征的話(huà),很難提取全局語(yǔ)義信息;用較大感受野去關(guān)注背景信息的話(huà),那么小目標的特征會(huì )丟失信息。以下一些思路是現在提升的技巧:

數據增強

特征融合

利用上下文信息,或者目標之間建立聯(lián)系

GAN

提升圖像分辨率

ROI pooling被ROI align替換

多尺度空間融合

錨點(diǎn)設計

匹配策略,不用IoU

YOLO Nano

比Tiny YOLOv3小8倍,性能提升11個(gè)點(diǎn)的Yolo Nano。通過(guò)設計用于處理目標檢測的深卷積神經(jīng)網(wǎng)絡(luò ),在這一領(lǐng)域取得了長(cháng)足的進(jìn)展和成功。盡管取得了這些成功,但在邊緣和移動(dòng)場(chǎng)景中廣泛部署此類(lèi)對象檢測網(wǎng)絡(luò )面臨的最大挑戰之一是高計算和內存需求。因此,針對邊緣和移動(dòng)應用的高效深層神經(jīng)網(wǎng)絡(luò )體系結構的設計越來(lái)越受到人們的關(guān)注。

13.jpg

我們將介紹一種高度緊密的深度卷積神經(jīng)網(wǎng)路YOLO Nano,來(lái)完成目標檢測的任務(wù)。利用人機協(xié)同設計策略創(chuàng )建YOLO Nano,其中基于YOLO系列單鏡頭目標檢測網(wǎng)絡(luò )架構的設計原則的原則性網(wǎng)絡(luò )設計原型,與machine driven設計探索相結合,創(chuàng )建一個(gè)具有高度定制模塊級宏體系結構和為嵌入式目標檢測任務(wù)定制的微體系結構設計的緊湊網(wǎng)絡(luò )。所提出的YOLO Nano只有4MB的模型大??!

14.jpg

雖然前面介紹的網(wǎng)絡(luò )展示了最先進(jìn)的目標檢測性能,但由于計算和內存限制,它們在邊緣和移動(dòng)設備上部署是非常具有挑戰性的,甚至是不可能的。事實(shí)上,在嵌入式處理器上運行時(shí),即使是更快的變體,在低的單位數幀速率下也有推斷速度。這極大地限制了此類(lèi)網(wǎng)絡(luò )在無(wú)人機、視頻監控、需要本地嵌入式處理的自動(dòng)駕駛等廣泛應用中的廣泛應用。

15.jpg

YOLO Nano的第一個(gè)設計階段是一個(gè)原則性的網(wǎng)絡(luò )設計原型階段,在這個(gè)階段中,根據人類(lèi)驅動(dòng)的設計原則創(chuàng )建一個(gè)初始的網(wǎng)絡(luò )設計原型,以指導機器驅動(dòng)的設計探索階段。

更具體地說(shuō),構建了一個(gè)初始的網(wǎng)絡(luò )設計原型,該原型基于YOLO系列單點(diǎn)架構的設計原則。YOLO網(wǎng)絡(luò )體系結構家族的一個(gè)突出特點(diǎn)是,與基于區域建議的網(wǎng)絡(luò )不同,基于區域候選的網(wǎng)絡(luò )依賴(lài)于構建區域候選網(wǎng)絡(luò )來(lái)生成場(chǎng)景中目標所在位置的建議,然后對生成的建議進(jìn)行分類(lèi),相反,它們利用單一的網(wǎng)絡(luò )架構來(lái)處理輸入圖像并生成輸出結果。因此,針對單個(gè)圖像的所有目標檢測預測都是在單個(gè)前向過(guò)程中進(jìn)行的,而對于基于區域候選的網(wǎng)絡(luò ),需要執行數百到數千個(gè)過(guò)程才能得到最終結果。這使得YOLO系列網(wǎng)絡(luò )架構的運行速度大大加快,因此更適合于嵌入式對象檢測。

現在出現的網(wǎng)絡(luò )都是走輕量級路線(xiàn),為了更好的部署,這也是一個(gè)趨勢,因為不能總是停留在理論的假想中。

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。

隔離器相關(guān)文章:隔離器原理
電機保護器相關(guān)文章:電機保護器原理
電抗器相關(guān)文章:電抗器原理


關(guān)鍵詞: 深度學(xué)習

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>