<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 自動(dòng)駕駛中多模態(tài)三維目標檢測研究綜述

自動(dòng)駕駛中多模態(tài)三維目標檢測研究綜述

發(fā)布人:計算機視覺(jué)工坊 時(shí)間:2021-07-10 來(lái)源:工程師 發(fā)布文章

摘要:過(guò)去幾年,我們見(jiàn)證了自動(dòng)駕駛的快速發(fā)展。然而,由于復雜和動(dòng)態(tài)的駕駛環(huán)境,目前實(shí)現完全自動(dòng)駕駛仍然是一項艱巨的任務(wù)。因此,自動(dòng)駕駛汽車(chē)配備了一套傳感器來(lái)進(jìn)行強大而準確的環(huán)境感知。隨著(zhù)傳感器的數量和類(lèi)型不斷增加,將它們融合來(lái)更好地感知環(huán)境正在成為一種趨勢。到目前為止,還沒(méi)有文章對基于多傳感器融合的3D目標檢測進(jìn)行深入調研。為了彌合這一差距并推動(dòng)未來(lái)的研究,本文致力于回顧最近利用多個(gè)傳感器數據源(尤其是相機和 LiDAR)的基于融合的 3D 檢測深度學(xué)習模型。首先,本文介紹了自動(dòng)駕駛汽車(chē)中常用的傳感器,包括它們的通用數據表示以及基于每種類(lèi)型的傳感器數據的3D目標檢測網(wǎng)絡(luò )。接下來(lái),我們討論一些多模態(tài)3D目標檢測中流行的數據集,重點(diǎn)介紹每個(gè)數據集中包含的傳感器數據。然后我們從三個(gè)方面來(lái)深入回顧最近的多模態(tài)3D檢測融合網(wǎng)絡(luò ):融合位置、融合數據表示和融合粒度。最后,本文總結了現有的開(kāi)放式挑戰并指出可能的解決方案。

1. 引言

自動(dòng)駕駛感知模塊

如圖1,自動(dòng)駕駛汽車(chē)(AV)通常配備一個(gè)感知子系統來(lái)實(shí)時(shí)檢測和跟蹤運動(dòng)目標。感知子系統是將來(lái)自一組傳感器的數據作為輸入,經(jīng)過(guò)一系列的處理步驟后,輸出關(guān)于環(huán)境、其他物體(如汽車(chē))以及自動(dòng)駕駛汽車(chē)本身的知識。如圖2所示,AV上的傳感器通常包括攝像頭、激光雷達(Light Detection And Ranging sensor,LiDAR)、雷達(Radio detection and ranging,Radar)、GPS(Global Positioning System)、慣性測量單元(inertial measurement units)等。

具體來(lái)說(shuō),感知子系統有三個(gè)基本要求。

首先,它需要是準確的,并給出了駕駛環(huán)境的準確描述。

其次,具有魯棒性。能在惡劣天氣下、甚至當一些傳感器退化甚至失效時(shí)保證AV的穩定與安全。

第三,實(shí)時(shí)性,能提供快速的反饋。

為了滿(mǎn)足上述需求,感知子系統同時(shí)執行多個(gè)重要任務(wù),如3D目標檢測、跟蹤、同步定位與映射(SLAM)等。

1.png

圖1:一個(gè)典型的自動(dòng)駕駛感知子系統

2.png

圖2:自動(dòng)駕駛汽車(chē)Sonic

3D目標檢測

3D目標檢測是感知子系統的一項重要任務(wù),其目的是在傳感器數據中識別出所有感興趣的物體,并確定它們的位置和類(lèi)別(如車(chē)輛、自行車(chē)、行人等)。在3D目標檢測任務(wù)中,需要輸出參數來(lái)指定物體周?chē)拿嫦?d的邊界框。如圖3所示,為了繪制紅色的三維包圍盒,我們需要預測中心三維坐標c,長(cháng)度l,寬度w,高度h,物體偏轉角度θ。顯然,2D目標檢測無(wú)法滿(mǎn)足自動(dòng)駕駛環(huán)境感知的需求,因為缺少現實(shí)三維空間下的目標位置。接下來(lái)介紹自動(dòng)駕駛的3D目標檢測任務(wù),根據傳感器的使用類(lèi)型,包括使用相機、使用LiDAR以及使用Radar等一些單模態(tài)方法。在第二章中會(huì )詳細介紹。

3.png

結果例子(分別對應綠框、紅框)

多模態(tài)目標檢測

在現實(shí)的自動(dòng)駕駛情況下,通過(guò)單一類(lèi)型的傳感器進(jìn)行目標檢測是遠遠不夠的。首先,每種傳感器都有其固有的缺點(diǎn)。例如,Camera only方法易遭受物體遮擋;LiDAR only方法的缺點(diǎn)是輸入數據的分辨率比圖像低,特別是在遠距離時(shí)點(diǎn)過(guò)于稀疏。圖4清楚地展示了兩種單模態(tài)檢測失效的情況。其次,要實(shí)現真正的自動(dòng)駕駛,我們需要考慮廣泛的天氣、道路和交通條件。感知子系統必須在所有不同的條件下都能提供良好的感知結果,這是依靠單一類(lèi)型的傳感器難以實(shí)現的。

4.png

圖4:?jiǎn)文B(tài)探測器典型問(wèn)題的說(shuō)明。對于場(chǎng)景#1,(a)表示Camera only無(wú)法避免遮擋問(wèn)題,(b)中LiDAR only檢測器檢測結果正確;而在場(chǎng)景2中,(c)中Camera only的檢測器表現良好,而(d)中LiDAR only檢測器顯示了遠處點(diǎn)云稀疏時(shí)檢測的難度。請注意,虛線(xiàn)紅框表示未探測目標

為了解決這些挑戰,多模態(tài)融合的3D檢測方法被提出。雖然傳感器融合帶來(lái)了可觀(guān)的好處,但如何進(jìn)行高效的融合對底層系統的設計提出了嚴峻的挑戰。一方面,不同類(lèi)型的傳感器在時(shí)間和空間上不同步;在時(shí)域上,由于不同傳感器的采集周期是相互獨立的,很難保證同時(shí)采集數據。在空間領(lǐng)域,傳感器在部署時(shí)具有不同的視角。另一方面,在設計融合方法時(shí),我們需要密切關(guān)注幾個(gè)問(wèn)題。下面我們列舉了一些問(wèn)題作為例子。

多傳感器校準和數據對齊:由于多模態(tài)數據的異質(zhì)性(如表1所示),無(wú)論是在原始輸入空間還是在特征空間,都很難對它們進(jìn)行精確對齊。

信息丟失:我們以計算為代價(jià),將傳感器數據轉換為一種可以對齊的處理格式,信息丟失是不可避免的。

跨模態(tài)數據增強:數據增強在3D目標檢測中起著(zhù)至關(guān)重要的作用,可以防止模型過(guò)擬合。全局旋轉和隨機翻轉等增強策略在單模態(tài)融合方法中得到了廣泛的應用,但由于多傳感器一致性的問(wèn)題,許多多傳感器融合方法都缺少這種增強策略。

數據集與評價(jià)指標:高質(zhì)量、可公開(kāi)使用的多模態(tài)數據集數量有限。即使是現有的數據集也存在規模小、類(lèi)別不平衡、標記錯誤等問(wèn)題。此外,目前還沒(méi)有針對多傳感器融合模型的評價(jià)指標,這給多傳感器融合方法之間的比較帶來(lái)了困難。

5.png

本文貢獻

我們對最近基于深度學(xué)習的多模態(tài)融合3D目標檢測方法進(jìn)行了系統的總結。特別地,由于攝像頭和LiDAR是自動(dòng)駕駛中最常見(jiàn)的傳感器,我們的綜述重點(diǎn)關(guān)注這兩種傳感器數據的融合。

根據輸入傳感器數據的不同組合,對基于多模態(tài)的3D目標檢測方法進(jìn)行分類(lèi)。特別是range image(點(diǎn)云的一種信息完整形式)、pseudo-LiDARs (由相機圖像生成),在過(guò)去的綜述文章中沒(méi)有進(jìn)行討論。

從多個(gè)角度仔細研究了基于多模態(tài)的3D目標檢測方法的發(fā)展。重點(diǎn)關(guān)注這些方法如何實(shí)現跨模態(tài)數據對齊,如何減少信息損失等關(guān)鍵問(wèn)題。

對基于深度學(xué)習的相機-LiDAR融合的方法進(jìn)行詳細對比總結。同時(shí),我們還介紹了近年來(lái)可用于3D目標檢測的多模態(tài)數據集。

仔細探討具有挑戰性的問(wèn)題,以及可能的解決方案,希望能夠啟發(fā)一些未來(lái)的研究。

2. 背景

在本節中,我們將提供自動(dòng)駕駛中使用的典型傳感器的背景概述,包括基于于每種傳感器的數據表示和3D目標檢測方法。其中,我們主要討論相機和激光雷達傳感器。最后,介紹了其他的一些傳感器。

基于相機的3D目標檢測

相機的得到的數據是圖像。在多模態(tài)融合方法中,對于圖像的處理形式,有以下幾種表示。

1)Feature map

2)Mask

3)Pseudo-LiDAR

6.png

圖5:RGB圖像及其典型數據表示。原始圖像來(lái)自KITTI訓練集。對于(b),使用預先訓練的AlexNet獲取64個(gè)通道的特征圖。對于(d),我們采用偽點(diǎn)云的BEV來(lái)更好的顯示

基于LiDAR的3D目標檢測

由于點(diǎn)云數據是不規則的和稀疏的,找到一個(gè)合適的點(diǎn)云表示對于高效的處理是很重要的。大多數現有的處理形式可以分為三大類(lèi):體素、點(diǎn)和視圖。

1)Voxel-based

2)Point-based

3)View-based

7.png

圖6:原始點(diǎn)云及其典型數據表示。我們從KITTI訓練集中得到原始點(diǎn)云

基于其他傳感器的3D目標檢測

AV其他的傳感器包括如Radar,紅外相機等等。這里我們主要介紹毫米波雷達(mmRadar)。我們使用原始收集的雷達數據進(jìn)行可視化。如圖7所示,對原始數據進(jìn)行兩次快速傅里葉變換,得到圖像對應的距離-方位熱圖。(b)中的亮度表示該位置的信號強度,也表明物體出現的概率很高。

8.png

圖7:同一場(chǎng)景上的RGB圖像(a)和毫米波雷達熱圖(b)。數據是在中國科學(xué)技術(shù)大學(xué)西校區北門(mén)收集的。

3. 數據集與評價(jià)指標

數據集是有效進(jìn)行深度學(xué)習研究的關(guān)鍵。特別是,像3D目標檢測這樣的任務(wù)需要精細標記的數據。在這一部分,我們討論了一些廣泛使用的自動(dòng)駕駛3D目標檢測數據集。并且進(jìn)行了詳細地比較,包括年份,激光雷達數量,激光雷達通道數量、攝像頭的數量,是否帶有雷達,2D盒子的數量(不區分2D盒子和2D實(shí)例分割注釋),3D盒子的數量,標注的類(lèi)的數量,以及位置。具體如表2所展示。

9.png

另外,大多數基于深度學(xué)習的多模態(tài)融合方法都是在KITTI、nuSecenes、Waymo上進(jìn)行實(shí)驗的。從圖8,我們觀(guān)察到三個(gè)流行的數據集的大小從只有15,000幀到超過(guò)230,000幀。與圖像數據集相比,這里的數據集仍然相對較小,對象類(lèi)別有限且不平衡。圖8也比較了汽車(chē)類(lèi)、人類(lèi)和自行車(chē)類(lèi)的百分比。有更多的物體被標記為“汽車(chē)”比“行人”或“自行車(chē)”。

10.png

圖8:KITTI、nuScenes和Waymo開(kāi)放數據集的比較

4. 基于深度學(xué)習的多模態(tài)3D檢測網(wǎng)絡(luò )

在本節中,我們介紹了基于多模態(tài)融合的3D檢測網(wǎng)絡(luò )。我們通過(guò)考慮以下三個(gè)融合策略中的重要因素來(lái)組織我們的文章:(1)融合位置,即多模態(tài)融合在整個(gè)網(wǎng)絡(luò )結構中發(fā)生的位置;(2)融合輸入,即每個(gè)傳感器使用什么數據表示進(jìn)行融合;(3)融合粒度,即多個(gè)傳感器的數據在什么粒度進(jìn)行融合檢測。

其中,融合位置是區分融合方法的最重要因素。一般來(lái)說(shuō),我們有兩種可能的融合位置,如圖9所示:特征融合和決策融合。特征融合是將不同模態(tài)的特征組合起來(lái)得到檢測結果,而決策融合則是將每個(gè)單獨的檢測結果組合起來(lái)。下面,我們首先回顧了特征融合方法,然后討論了決策融合方法。注意,由于融合方法的設計與數據集的選擇是正交的,因此我們將一起討論KITTI、Waymo和nuScenes數據集的融合方法。其中,大多數多模態(tài)三維檢測方法都是在KITTI上進(jìn)行評價(jià)的。從表3的評價(jià)總結中,可以清楚地看出該方法適用于哪些數據集。

11.png12.png

圖9:特征融合與決策融合

特征融合

特征融合在神經(jīng)網(wǎng)絡(luò )層中分層混合模態(tài)。它允許來(lái)自不同模式的特性在層上相互交互。特征融合方法需要特征層之間的相互作用,如圖9 (a)所示。這些方法首先對每個(gè)模態(tài)分別采用特征提取器,然后結合這些特征實(shí)現多尺度信息融合。最后,將融合后的特征輸入神經(jīng)網(wǎng)絡(luò )層,得到檢測結果。

許多融合方法都屬于這一類(lèi)。我們基于傳感器數據的不同組合,將這些方法分成以下幾類(lèi)。

Point cloud view & image feature map

point cloud voxels & image feature map

LiDAR points & image feature map

LiDAR points & image mask:

point cloud voxels & image mask

point cloud voxels & point cloud view & image feature map

point cloud voxels & image feature map & image pseudo-LiDAR

此外,在特征融合方法中,我們還需要關(guān)注融合粒度。具體來(lái)說(shuō),特征融合可以在不同粒度上進(jìn)行,即RoI-wise、voxel-wise、point-wise和pixel-wise。圖10總結了基于深度學(xué)習的多模態(tài)三維檢測方法出現的年份,并對每種方法的融合粒度進(jìn)行了標記。我們觀(guān)察到,早期方法融合粒度比較粗糙,主要使用RoI和voxel。隨著(zhù)多模態(tài)目標檢測技術(shù)的快速發(fā)展,融合粒度越來(lái)越細,融合種類(lèi)越來(lái)越多,檢測性能不斷提高。

13.png

圖10:特征融合3D目標檢測方法的時(shí)間軸。用不同的顏色來(lái)標記它們的融合粒度。

決策融合

在決策融合中,多模態(tài)數據被單獨、獨立地處理,融合發(fā)生在最后的決策階段。這種方法的思想通常是利用神經(jīng)網(wǎng)絡(luò )對傳感器數據進(jìn)行并行處理,然后將得到的所有決策輸出進(jìn)行融合,得到最終結果。與特征融合相比,決策融合可以更好地利用現有網(wǎng)絡(luò )對每個(gè)模態(tài)的影響,并且我們可以很容易地知道每個(gè)模態(tài)的結果是否正確。然而,從表4可以看出,一個(gè)不能忽視的嚴重缺點(diǎn)是不能使用豐富的中間層特征。因此,決策融合直到最近才受到人們的重視。

14.png

相機-LiDAR融合方法總結

綜上所述,大多數融合方法都是基于KITTI 3D基準,但在KITTI 3D目標檢測排行榜上排名靠前的方法主要是LiDAR-only方法。在KITTI數據集上,多模態(tài)方法的效果并不好。相反,在最新數據集如nuScenes和Waymo Open Dataset上,排名靠前的方法主要是多模態(tài)融合的方法。一個(gè)可能的原因是這些數據集中使用的LiDAR傳感器具有不同的分辨率。KITTI使用一個(gè)64通道的LiDAR,nuScenes使用一個(gè)32光束的LiDAR。因此,當點(diǎn)云相對稀疏時(shí),多模態(tài)方法更有用。更重要的是,最近的融合方法有一些共同的特點(diǎn)。一方面,它們都采用point-wise的融合粒度來(lái)有效地建立激光雷達點(diǎn)與圖像像素之間的精確映射;另一方面,在訓練融合網(wǎng)絡(luò )的過(guò)程中,都進(jìn)行了精心設計的跨模態(tài)數據增強,不僅加快了網(wǎng)絡(luò )的收斂速度,而且緩解了類(lèi)間的不平衡問(wèn)題

其他傳感器融合方式

我們還簡(jiǎn)單討論了針對其他類(lèi)型傳感器的融合方法,如Radar-相機,LiDAR-Radar等。

5. 開(kāi)放式挑戰與可能的解決方案

在本節中,我們將討論多模態(tài)3D目標檢測的開(kāi)放式挑戰和可能的解決方案。我們重點(diǎn)討論了如何提高多傳感器感知系統的準確性和魯棒性,并同時(shí)實(shí)現系統的實(shí)時(shí)性。表6總結了我們的討論。包括以下幾個(gè)關(guān)鍵問(wèn)題。

多傳感器聯(lián)合標定

數據對齊

跨模態(tài)數據增強

數據集與評價(jià)指標

15.png

6. 總結

由于3D視覺(jué)在自動(dòng)駕駛等應用中的重要性日益增加,本文綜述了近年來(lái)的多模態(tài)3D目標檢測網(wǎng)絡(luò ),特別是相機圖像和激光雷達點(diǎn)云的融合。我們首先仔細比較了常用的傳感器,討論了它們的優(yōu)缺點(diǎn),總結了單模態(tài)方法的常見(jiàn)問(wèn)題。然后,我們提供了幾個(gè)常用的自動(dòng)駕駛數據集的深入總結。為了給出一個(gè)系統的回顧,我們考慮以下三個(gè)維度對多模態(tài)融合方法進(jìn)行分類(lèi):(1)融合在管道中發(fā)生的位置;(2)每個(gè)融合輸入使用什么數據表示;(3)融合算法的粒度是什么。最后,我們討論了在多模態(tài)3D目標檢測中的開(kāi)放式挑戰和潛在的解決方案。

文章鏈接:https://arxiv.org/abs/2106.12735

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 自動(dòng)駕駛

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>