<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > CaDDN：基于單目的3D目標檢測新方法（CVPR2021）

CaDDN：基于單目的3D目標檢測新方法（CVPR2021）

發(fā)布人：計算機視覺(jué)工坊時(shí)間：2021-11-06 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

以下文章來(lái)源于CV研習社，作者元氣滿(mǎn)滿(mǎn)的打工人

作者丨元氣滿(mǎn)滿(mǎn)的打工人

來(lái)源丨CV研習社

文章導讀

導讀：在自動(dòng)駕駛的技術(shù)中，3D目標檢測能夠提更加豐富的信息，如：目標的類(lèi)別、位置和姿態(tài)。因此，與2D檢測相比，3D目標檢測的難度更大。目前很多的方法都是使用激光雷達進(jìn)行3D目標檢測，但激光雷達的方案成本高且壽命短，而相機的方案成本低且壽命長(cháng)。小編今天要分享的論文是基于單目的3D目標檢測方法CaDDN，名為：Categorical Depth Distribution Network for Monocular 3D Object Detection。讓我們一起來(lái)學(xué)習一下吧。

Part 01

單目3D目標檢測的優(yōu)點(diǎn)和難點(diǎn)

優(yōu)點(diǎn)：

在自動(dòng)駕駛中，相比于使用昂貴的激光雷達等傳感器，相機傳感器成本低廉，且壽命長(cháng)、易于安裝，同時(shí)圖像的檢測技術(shù)相對更加成熟，有利于研究工作的快速進(jìn)行。

難點(diǎn)：

單目3D目標檢測的難點(diǎn)就在于對深度信息的預測，而這也恰恰是激光雷達的優(yōu)勢所在。在單目的方案中，將實(shí)例從3D空間投影到2D圖像平面就必然會(huì )損失圖像的深度信息。因此，對于深度信息的處理一直是單目目標檢測的重點(diǎn)研究?jì)热荨?/p>

Part 02

單目3D目標檢測方法分類(lèi)

單目3D目標檢測的方法通常都需要生成中間表示來(lái)輔助三維檢測任務(wù)?；谶@些表示，方法可以分為三類(lèi)，分別是直接檢測、基于深度檢測和基于網(wǎng)格檢測。

直接檢測：直接檢測的方法可以結合二維圖像平面和三維空間之間的關(guān)系來(lái)輔助檢測，例如通過(guò)關(guān)鍵點(diǎn)檢測的方法，并使用已知的幾何特征來(lái)協(xié)助3D box的構建。這類(lèi)方法較為簡(jiǎn)單高效，但由于沒(méi)有顯式的學(xué)習深度信息，因此性能不如其他的方法。

基于深度檢測：基于深度的方法通常都會(huì )創(chuàng )建一個(gè)深度預測的分支，輸出結果是一張深度圖來(lái)輔助對于深度的檢測。深度圖可以和圖像結合使用，也可以轉化為點(diǎn)云。但由于在訓練時(shí)，檢測和深度預測是分離訓練的，這可能會(huì )到導致一些信息的損失，從而影響網(wǎng)絡(luò )的整體效果。

基于網(wǎng)格的方法：基于網(wǎng)格的方法通過(guò)預測BEV網(wǎng)格作為3D目標檢測的輸入，從而避免了對深度信息的直接預測。如OFT的方法提出了一種體素網(wǎng)格，通過(guò)把體素投影到圖像平面上進(jìn)而采樣圖像特征將其轉換成BEV的形式。但缺點(diǎn)是多個(gè)體素會(huì )投影到相同的圖像特征上，造成特征的重疊，而導致網(wǎng)絡(luò )性能的降低。

Part 03

CaDDN網(wǎng)絡(luò )的提出

CaDDN網(wǎng)絡(luò )結合了上面提到三種方法的優(yōu)點(diǎn)，所提出的網(wǎng)絡(luò )通過(guò)以端到端的方式聯(lián)合執行深度估計和3D目標檢測，并利用深度估計生成具有準確和局部特征的有意義的鳥(niǎo)瞰圖表示，網(wǎng)絡(luò )結構圖如下。

網(wǎng)絡(luò )結構圖

CaDDN網(wǎng)絡(luò )的創(chuàng )新點(diǎn):

（1）網(wǎng)絡(luò )預測像素級分類(lèi)深度分布以準確定位 3D 空間中的圖像信息。每個(gè)預測分布描述了像素屬于一組預定義深度容器的概率。

（2）網(wǎng)絡(luò )以端到端的方式學(xué)習深度分布，聯(lián)合優(yōu)化精確的深度預測和準確的3D目標檢測。

（3）網(wǎng)絡(luò )提出使用分類(lèi)深度分布和投影幾何從單個(gè)圖像生成高質(zhì)量鳥(niǎo)瞰圖場(chǎng)景表示的新方法。

CaDDN的性能表現：網(wǎng)絡(luò )在KITTI 3D目標檢測數據集中的汽車(chē)和行人的檢測任務(wù)中，在文章發(fā)表時(shí)，在所有的方法中排名第一。同時(shí)也是第一個(gè)在Waymo數據集下提交檢測結果的網(wǎng)絡(luò )。

Part 04

CaDDN的具體實(shí)現

文章大體上分為幾個(gè)部分，為每個(gè)像素預測深度網(wǎng)格分布、體素網(wǎng)格映射、生成鳥(niǎo)瞰圖和3D檢測，下面是每個(gè)部分的具體解析。

（1）圖像特征--->視錐特征

在這一步驟中，將會(huì )每個(gè)像素預測深度網(wǎng)格分布。網(wǎng)絡(luò )的輸入是（H×W×3）的彩色圖片，輸出是（H×W×D×C）的視錐特征圖，其中C為特征通道數，D為劃分好的深度網(wǎng)格。在這步驟中間有幾個(gè)過(guò)程，過(guò)程如下圖所示：

首先輸入的彩色圖像需要經(jīng)過(guò)image backbone提取圖像特征，通道數為C。之后會(huì )分為二個(gè)分支，第一個(gè)分支進(jìn)行圖像特征的降維，對圖像特征進(jìn)行提煉。第二個(gè)分支是進(jìn)行分類(lèi)深度分布計算，為圖像特征中的每個(gè)像素預測D個(gè)概率，其中每個(gè)概率表示深度值屬于指定depth bin的置信度。

然后，圖像特征和分類(lèi)深度分布做外積操作生成視椎體特征網(wǎng)格。具體的操作過(guò)程如下圖所示。

使用(u, v, c) 表示圖像特征F中的坐標，(u, v, di)表示分類(lèi)深度分布D中的坐標，其中(u, v)是特征像素位置，c是通道索引，di是深度bin索引。為了生成視錐特征網(wǎng)格G，每個(gè)特征像素F(u,v)由其關(guān)聯(lián)的D(u,v)中的depth bin概率加權，以填充到深度軸di處。特征像素可以使用外積按深度概率加權，定義如下：

分類(lèi)深度分布D與圖像特征F外積之后得到視椎體特征矩陣G(WF×HF×D×C)，即(WF×HF)每個(gè)像素處對應著(zhù)一個(gè)D×C的矩陣。

（2）視錐特征-->體素特征

這一步的主要目的是進(jìn)行視錐到3D空間的映射過(guò)程，即對于體素空間中的點(diǎn)（x,y,z），找到其在視錐空間中的映射點(diǎn)，通過(guò)trilinear interpolation獲取視錐體網(wǎng)格采樣點(diǎn)深度值，將其填充至體素空間。具體的操作過(guò)程如下圖。

體素采樣點(diǎn)[x, y, z]在每個(gè)體素的中心產(chǎn)生并變換到視錐網(wǎng)格，形成視錐網(wǎng)格采樣點(diǎn)[u, v, dc]，其中dc是連續的沿視錐深度軸di的深度值。深度離散化方法將每個(gè)連續深度值dc轉換為離散深度bin索引di，形成視錐網(wǎng)格采樣點(diǎn)[u, v, di]。最后通過(guò)trilinear interpolation獲取視椎體網(wǎng)格采樣點(diǎn)[u, v, di]處的數值，并將該數值復制到體素采樣點(diǎn)[x, y, z]處。

（3）體素特征-->鳥(niǎo)瞰圖（BEV）

直接折疊體素特征V(X×Y×Z×C)就可以得到鳥(niǎo)瞰圖B(X×Y×C)。具體的操作過(guò)程是：將Z軸和C軸拼接起來(lái)，然后采用1x1 convolution + BatchNorm +ReLU layer將(Z×C)通道降維至C，就得到了鳥(niǎo)瞰圖B(X×Y×C)。

（4）3D目標檢測

文章在生成的鳥(niǎo)瞰圖上執行3D目標檢測，這里作者使用了PointPillar的方法，并對網(wǎng)絡(luò )結構進(jìn)行了一定的調整，最終完成檢測過(guò)程。

對深度進(jìn)行網(wǎng)格化的估計是本文的創(chuàng )新點(diǎn)，文章給出了深度網(wǎng)格的監督，其實(shí)核心方法是如何將連續值離散化。這里作者給出了3種離散方式，分別是均勻離散（UD）、間距增加的離散（SID）和線(xiàn)性增加的離散化（LID）。并最終選用LID，因為L(cháng)ID的離散化為不同深度提供了平衡的深度估計。

三種離散方式

Part 05

實(shí)驗

作者在KITTI和Waymo二大數據集上進(jìn)行了實(shí)驗，實(shí)驗結果如下。

KITTI數據集：在汽車(chē)和行人的檢測任務(wù)上，CaDDN取得了較好的效果，在騎行者的檢測中，效果雖然不如MonoPSR效果好，但較其余的方法則有大幅度的提升。下表是KITTI數據集下的檢測結果。

KITTI數據集檢測結果

Waymo數據集：由于CaDDN是一個(gè)提交結果，所以作者和M3D-RPN進(jìn)行了比較，同樣取得了較好的檢測結果。下表是Waymo數據集車(chē)輛類(lèi)別的檢測結果。

Waymo數據集檢測結果

Part 06

總結

本文提出了一種新的單目3D目標檢測的方法，該方法可以精確的估計每個(gè)像素的分類(lèi)深度分布。將深度分布和圖像特征相結合，生成保留深度置信度的鳥(niǎo)瞰圖表示，并用于3D目標檢測。該方法取得了較好的性能表現，論文較先前方法的改進(jìn)之處，值得學(xué)習。

本文僅做學(xué)術(shù)分享，如有侵權，請聯(lián)系刪文。

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來(lái)頭？

視頻 AI 機器人 | 2021-02-26

大嘴業(yè)話(huà)-AI目前市場(chǎng)分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

AI驅動(dòng)的嵌入式聲音和振動(dòng)識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

瑞薩電子AI單元解決方案成功提高GE醫療（日本）日野工廠(chǎng)的生產(chǎn)力

winni945 | 2018-09-12

AI+機器視覺(jué)成趨勢，圖文詳解N大應用場(chǎng)景

智能計算安森美 AI 機器視覺(jué) | 2024-07-31

WTC-AI太陽(yáng)能熱水器電路圖

設計方案 WTC-AI 太陽(yáng)能熱水器電路圖 | 2012-07-24

加大調整力度，教育部支持高校布局集成電路、AI 等專(zhuān)業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達創(chuàng )造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

如何快速搭建手寫(xiě)體識別演示系統

視頻 digikey AI 手寫(xiě)體識別 | 2022-07-29

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

Nvidia的CEO談AI的未來(lái)：“我們將需要三臺電腦... 一臺來(lái)創(chuàng )建AI... 一臺來(lái)模擬AI... 一臺來(lái)運行AI”

智能計算 AI | 2024-07-31

蘋(píng)果表示其AI模型是在谷歌的定制芯片上訓練的

智能計算 AI | 2024-07-30

海聯(lián)達（Aigale）Ai-HD1 無(wú)線(xiàn)全高清套件拆解

zhuwei0710 | 2013-04-28

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過(guò) Meta AI 模型安全系統

智能計算 Meta AI | 2024-07-31

WTC-AI型太陽(yáng)能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽(yáng)能熱水器電路熱水器 | 2012-07-30

釋說(shuō)芯語(yǔ)16：硬科技：構建企業(yè)未來(lái)之路（附PPT）

jackwang | 2018-10-22

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

蘋(píng)果承認：AI模型使用谷歌定制芯片訓練

智能計算蘋(píng)果 AI 谷歌定制芯片 | 2024-07-30

國際奧委會(huì )：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會(huì ) 體育 | 2024-07-26

萬(wàn)家樂(lè )JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬(wàn)家樂(lè ) | 2013-01-17

CSR8670CSR8675智能語(yǔ)音Alexa藍牙方案開(kāi)發(fā)

資源下載 AI 智能語(yǔ)音 | 2017-12-14

iPhone 16將不會(huì )預裝AI功能？計劃通過(guò)iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

“破局AI開(kāi)發(fā)，釋放邊緣算力開(kāi)發(fā)者訪(fǎng)談”，干貨滿(mǎn)滿(mǎn)！

視頻 intel AI OpenVINO | 2021-06-10

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>