CVPR 2020 | 基于深度引導卷積的單目3D目標檢測
參考論文:D4LCN:Learning Depth-Guided Convolutions for Monocular 3D Object Detection(CVPR2020)
論文、代碼地址:在公眾號「計算機視覺(jué)工坊」,后臺回復「D4LCN」,即可直接下載。
參考paddle復現:3D目標檢測(單目)D4LCN論文復現(https://aistudio.baidu.com/aistudio/projectoverview/public)
Abstract
單目3D目標檢測最大的挑戰在于無(wú)法得到精確的深度信息,傳統的二維卷積算法不適合這項任務(wù),因為它不能捕獲局部目標及其尺度信息,而這對三維目標檢測至關(guān)重要.為了更好地表示三維結構,現有技術(shù)通常將二維圖像估計的深度圖轉換為偽激光雷達表示,然后應用現有3D點(diǎn)云的物體檢測算法.因此他們的結果在很大程度上取決于估計深度圖的精度,從而導致性能不佳.在本文中,作者通過(guò)提出一種新的稱(chēng)為深度引導的局部卷積網(wǎng)絡(luò )(LCN),更改了二維全卷積 (D4LCN),其中的filter及其感受野可以從基于圖像的深度圖中自動(dòng)學(xué)習,使不同圖像的不同像素具有不同的filter.克服了傳統二維卷積的局限性,縮小了圖像表示與三維點(diǎn)云表示的差距.D4LCN對于最先進(jìn)的KITTI的相對改進(jìn)是9.1%,單目3D檢測的SOTA方法.
Introduction
3D目標檢測有許多應用,如自動(dòng)駕駛和機器人技術(shù).LiDAR設備可以獲得三維點(diǎn)云,從而獲得精確的深度信息.但是,LiDAR高成本和稀疏輸出的特點(diǎn)讓人們希望尋找到更便宜的替代品,這些替代品的其中之一維單目相機.雖然單目相機引起了人們的廣泛關(guān)注,但在很大程度上不能夠解決3D目標檢測問(wèn)題.實(shí)現上述目標的方法通常是分為基于2圖像的方法和基于偽激光雷達點(diǎn)的方法兩種.基于圖像的方法通常利用幾何體約束,包括對象形狀、地平面和關(guān)鍵點(diǎn).這些約束條件在損失函數中用不同的項表示,以提高檢測結果.基于偽激光雷達的圖像深度變換方法是通過(guò)模擬激光雷達信號的點(diǎn)云表示.如圖1所示,這兩種方法各有缺點(diǎn),都導致了性能不理想.
圖1.(a)和(b)分別顯示了監督深度估計器DORN和無(wú)監督單深度生成的偽激光雷達點(diǎn).綠色框表示groundtruth(GT)3D框.如(b)所示,由于深度不準確而產(chǎn)生的偽激光雷達點(diǎn)與GTbox有較大的偏移量(c)和(d)顯示了我們的方法和偽激光雷達使用粗深度圖的探測結果.效果在很大程度上取決于估計深度圖的精度,而我們的方法在缺少精確深度圖的情況下可以獲得準確的檢測結果
基于圖像的方法通常無(wú)法獲取有意義的局部對象尺度和結構信息,這主要是由于以下兩個(gè)因素,遠近距離的單眼視覺(jué)會(huì )引起物體尺度的顯著(zhù)變化.傳統的二維卷積核很難同時(shí)處理不同尺度的對象(見(jiàn)圖2).二維卷積的局部鄰域定義在攝像機平面上,其中深度維數丟失.在這個(gè)非度量空間(e像素之間的距離沒(méi)有一個(gè)明確的物理意義),過(guò)濾器無(wú)法區分對象和背景.在這種情況下,汽車(chē)區域和背景區域將被同等對待.
雖然基于偽激光雷達點(diǎn)的方法已經(jīng)取得了一些進(jìn)展,但它們仍然存在兩個(gè)關(guān)鍵問(wèn)題,這些方法的性能在很大程度上依賴(lài)于估計深度圖的精度(見(jiàn)圖1).從單目圖像中提取的深度圖通常是粗糙的(使用它們估計的點(diǎn)云具有錯誤的坐標),導致不準確的三維預測.換句話(huà)說(shuō),深度圖的精度限制了三維目標檢測的性能.偽激光雷達方法不能有效地利用從RGB圖像中提取的高層語(yǔ)義信息,導致大量的虛警,這是因為點(diǎn)云提供了空間信息,卻丟失了語(yǔ)義信息.
為了解決上述問(wèn)題,我們提出了一種新的卷積網(wǎng)絡(luò )D4LCN,其中卷積核由深度映射生成,并局部應用于單個(gè)圖像樣本的每個(gè)像素和通道,而不是學(xué)習全局內核來(lái)應用于所有圖像.如圖2所示,D4LCN以深度圖為指導,從RGB圖像中學(xué)習局部動(dòng)態(tài)深度擴展核,以填補二維和三維表示之間的空白,其中每個(gè)核都有自己的擴張率.
圖2.不同卷積方法的比較(a)是傳統的二維卷積,它在每個(gè)像素上使用一個(gè)卷積核來(lái)卷積整個(gè)圖像(b)對圖像的不同區域(切片)應用多個(gè)固定卷積核.(c)使用深度圖為每個(gè)像素生成具有相同接收場(chǎng)的動(dòng)態(tài)核(d)表示我們的方法,其中濾波器是動(dòng)態(tài)的,深度圖為每個(gè)像素和通道特性圖具有自適應接收場(chǎng).它可以用比(C)更少的參數更有效地實(shí)現.
我們的貢獻(1)提出了一種新的三維目標檢測組件D4LCN,其中深度圖指導了單目圖像的動(dòng)態(tài)深度擴展局部卷積的學(xué)習(2)設計了一個(gè)基于D4LCN的單級三維物體檢測框架,以更好的學(xué)習三維特征,以縮小二維卷積和基于三維點(diǎn)云的運算之間的差距(3)大量實(shí)驗表明,D4LCN優(yōu)于最先進(jìn)的單眼3D檢測方法,并在KITTIbenchmark上取得第一名.
網(wǎng)絡(luò )結構
我們的框架由三個(gè)關(guān)鍵組件組成:網(wǎng)絡(luò )主干、深度引導濾波模塊和2D-3D head
圖3.單目三維物體檢測框架.首先從RGB圖像中估計出深度圖,并與RGB圖像一起作為輸出兩個(gè)分支網(wǎng)絡(luò )的輸入.然后利用深度引導濾波模塊對每個(gè)殘差塊的信息進(jìn)行融合.最后,采用一級非最大抑制探測頭(NMS)進(jìn)行預測
損失函數
比較結果
我們在kitti數據集的官方測試集和兩組驗證集上進(jìn)行了實(shí)驗.表一包括排名前14位的方法,其中我們的方法排名第一.可以觀(guān)察到:
(1)我們的方法比第二個(gè)最好的競爭對手三維汽車(chē)檢測的提高9.1%
(2)大多數競爭對手在COCO/KITTI上預先訓練的檢測器(例如更快的rcnn)或采用多階段訓練來(lái)獲得更好的2D檢測和穩定的3D結果.而我們的模型是使用標準的ImageNet預訓練模型進(jìn)行端到端訓練的.然而,我們仍然取得了最優(yōu)異的三維檢測結果,驗證了我們的D4LCN學(xué)習三維結構的有效性.
表1.KITTI 3D目標檢測數據集的比較結果.
因為人是非剛體.其形狀多變,深度信息難以準確估計.因此,對行人和騎自行車(chē)的人進(jìn)行三維檢測變得尤為困難,所有基于偽激光雷達的方法都無(wú)法檢測到這兩種類(lèi)型的傳感器,如表2所示.該方法在行人和騎車(chē)人的三維檢測中仍取得了令人滿(mǎn)意的效果.此外,我們還在圖4中顯示了與我們的D4LCN的不同濾波器相對應的活動(dòng)映射.我們模型的同一層上的不同濾波器使用不同大小的感受野來(lái)處理不同規模的物體,包括行人(?。┖推?chē)(大),以及遠處的汽車(chē)(?。┖透浇钠?chē)(大).
表2.D4LCN在三個(gè)數據分割上的多類(lèi)3D檢測結果.
圖4.D4LCN的不同濾波器對應的活動(dòng),分別表示1,2,3的擴張率.不同的濾波器在模型中有不同的函數來(lái)自適應地處理尺度問(wèn)題.
總結
本文提出了一種用于單眼三維目標檢測D4LCN,其卷積核和感受野(擴張率)對于不同圖像的不同像素和通道是不同的.這些核是在深度映射的基礎上動(dòng)態(tài)生成的,以彌補二維卷積的局限性,縮小二維卷積與基于點(diǎn)云的三維算子之間的差距.結果表明,該算法不僅能解決二維卷積的尺度敏感和無(wú)意義的局部結構問(wèn)題,而且能充分利用RGB圖像的高級語(yǔ)義信息.而且D4LCN能更好地捕獲KITTI數據集上的三維信息,并能在KITTI數據集上進(jìn)行單目三維目標檢測.
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
助聽(tīng)器原理相關(guān)文章:助聽(tīng)器原理