<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > ICLR2023 | 阿卜杜拉國王科技大學(xué)最新發(fā)布,3D表示新網(wǎng)絡(luò ):多視圖+點(diǎn)云!(3)

ICLR2023 | 阿卜杜拉國王科技大學(xué)最新發(fā)布,3D表示新網(wǎng)絡(luò ):多視圖+點(diǎn)云!(3)

發(fā)布人:計算機視覺(jué)工坊 時(shí)間:2023-08-22 來(lái)源:工程師 發(fā)布文章
卷積——VointConv

VointConv是指對Voint空間上的操作進(jìn)行卷積運算  。

  • 它是一個(gè)可學(xué)習的函數,具有共享權重,并且在所有的Voint上進(jìn)行操作。
  • 輸入是視圖特征大小為  的數據,輸出是視圖特征大小為  的數據,其中包含了   層。

一個(gè)簡(jiǎn)單的VointConv操作的示例是將共享的多層感知機 ( MLP ) 應用于可見(jiàn)視圖特征。

  • 在第4.2節中,提供了更多關(guān)于這種操作的詳細信息,導致了VointNet 的不同的變體。
3D Voint clouds的學(xué)習VointNet

VointNet 模型的目標是:獲得可以隨后被任何點(diǎn)云處理 pipeline 使用的多視圖點(diǎn)云特征。

VointNet 模塊  定義如下。

其中  是任意點(diǎn)卷積運算(例如共享 MLP 或 EdgeConv)。在將 VointMax 應用于視圖特征以獲得點(diǎn)特征之前,VointNet  使用學(xué)習到的 VointConv   轉換各個(gè)視圖特征。

用于 3D 點(diǎn)云處理的 VointNet **pipeline **  —— VointNet Pipeline for 3D Point Cloud Processing

完整的 pipeline 如圖 2 所示。損失可描述如下:

其中 :

  • L 是在所有訓練點(diǎn)  上定義的交叉熵 (CE) 損失, 定義了這些點(diǎn)的標簽。
  • 其他組件  均已在之前定義。

要聯(lián)合學(xué)習的權重是 2D 主干   的權重和使用相同 3D 損失的 VointNet  的權重??梢赃x擇添加  上的輔助 2D 損失以在圖像級別進(jìn)行監督。

對于分類(lèi),整個(gè)對象可以被視為單個(gè) Voint,每個(gè)視圖的全局特征將是該 Voint 的視圖特征。

實(shí)驗 Experiments實(shí)驗設置  Experimental SetupDatasets 數據集

本文對VointNet 進(jìn)行了基準測試,使用了具有挑戰性和現實(shí)性的ScanObjectNN數據集。該數據集包含三個(gè)變體,包括背景和遮擋,共有15個(gè)類(lèi)別和2,902個(gè)點(diǎn)云。

對于形狀檢索任務(wù),我們使用ShapeNet Core55作為ShapeNet的子集進(jìn)行基準測試。該數據集包含51,162個(gè)帶有55個(gè)對象類(lèi)別標簽的3D網(wǎng)格對象。根據MVTN的設置從每個(gè)網(wǎng)格對象中采樣5,000個(gè)點(diǎn)來(lái)生成點(diǎn)云。

另外,對于形狀部件分割任務(wù),在ShapeNet Parts上進(jìn)行了測試,它是ShapeNet的一個(gè)子集,包含來(lái)自16個(gè)類(lèi)別和50個(gè)部分的16,872個(gè)點(diǎn)云對象。

對于遮擋魯棒性測試,遵循MVTN的方法,在ModelNet40數據集上進(jìn)行測試,該數據集由40個(gè)類(lèi)別和12,311個(gè)3D對象組成。

Metrics 評估指標

評估指標方面:

  • 對于3D點(diǎn)云分類(lèi)任務(wù),展示了整體精度。

  • 對于形狀檢索任務(wù),使用測試查詢(xún)的平均精度(mAP)進(jìn)行評估。

  • 對于語(yǔ)義分割任務(wù),使用點(diǎn)云上的平均交并比(mIoU)進(jìn)行評估。

  • 對于部件分割任務(wù),展示了實(shí)例平均mIoU(Ins. mIoU)。

Baselines 基線(xiàn)

作為基線(xiàn)方法,包括 PointNet、PointNet++和DGCNN 作為使用點(diǎn)云的基線(xiàn)。

還與一些基于多視圖的方法進(jìn)行了比較,包括 MVCNN、SimpleView和MVTN,用于分類(lèi)和檢索任務(wù),并使用了一些基于多視圖的分割方法(如標簽融合和Mean Fusion)用于部件分割任務(wù)。

VointNet 變量

等式 (3) 中的 VointNet 依賴(lài)于 VointConv 操作   作為基本構建塊。

在這里,簡(jiǎn)要描述了 VointNet 使用的三個(gè)  操作示例。

共享多層感知器 (MLP)

這是最基本的 VointConv公式。

對于層 ,視圖  處的 Voint  的特征被更新到層   為:,其中 ρ 是共享 MLP,其權重為 ,然后是歸一化和非線(xiàn)性函數(例如 ReLU)。

此操作獨立應用于所有 Voint,并且僅涉及每個(gè)Voint 的可見(jiàn)視圖特征。該公式擴展了 PointNet 的共享MLP 公式,以處理 Voints 的視圖特征。

圖卷積(GCN)

通過(guò)創(chuàng )建一個(gè)連接到所有視圖特征的虛擬中心節點(diǎn)來(lái)聚合它們的信息(類(lèi)似于 ViT 中的 “cls” token 來(lái)為每個(gè) Voint 定義一個(gè)全連接的圖。

然后,圖卷積可以被定義為共享 MLP(如上所述)但在所有視圖特征之間的邊緣特征上,然后是圖形鄰居上的最大池化。在最終輸出之前使用額外的共享 MLP。

圖注意力(GAT)

圖注意力操作可以像上面的 GCN 操作一樣定義,但是在對它們進(jìn)行平均之前,在圖鄰居的特征上學(xué)習注意力權重。共享 MLP 計算這些權重。

Implementation Details 實(shí)現細節Rendering and Unprojection. 渲染和非投影

在pipeline 中選擇來(lái)自 Pytorch3D的可微點(diǎn)云渲染器 R,因為它的速度和與Pytorch 庫的兼容性。在尺寸為  的多視圖圖像上渲染點(diǎn)云。

根據點(diǎn)的法線(xiàn)值對點(diǎn)進(jìn)行著(zhù)色,如果法線(xiàn)不可用,則將它們保持為白色。按照與 (Wei et al, 2020;Hamdi et al, 2021) 類(lèi)似的程序,視點(diǎn)設置在訓練期間隨機化(使用  個(gè)視圖)并在測試中固定為球面視圖(使用  個(gè)視圖)。

Architectures 架構

對于二維主干 C,使用 ViT-B(具有來(lái)自 TIMM 庫的預訓練權重)進(jìn)行分類(lèi),使用 DeepLabV3進(jìn)行分割。

在 3D 點(diǎn)云輸出上使用 3D CE 損失以及在像素上定義損失時(shí)的 2D CE 損失。VointNet 架構的特征維度為 d = 64,深度在  中為  = 4  層。

主要結果基于VointNet (MLP),除非在第 6 節中另有說(shuō)明,在第6 節中詳細研究了 VointConv  和 C 的影響。

Training Setup 訓練設置

分兩個(gè)階段訓練,首先在點(diǎn)的2D 投影標簽上訓練 2D 主干,然后端到端地訓練整個(gè)pipeline,同時(shí)將訓練重點(diǎn)放在 VointNet 部分。

使用 AdamW 優(yōu)化器 ,初始學(xué)習率為 ,步長(cháng)學(xué)習率為每 12 個(gè)epoch 33.3%,持續 40 個(gè)epoch 。

使用一個(gè) NVIDIATesla V100 GPU 進(jìn)行訓練。不使用任何數據擴充。

有關(guān)訓練設置(損失和渲染)、VointNet 和 2D 骨干架構的更多詳細信息,請參見(jiàn)附錄。

圖片

表3:3D 形狀檢索。

  • 報告了 ShapeNet Core55 上的 3D 形狀檢索 mAP。
  • VointNet 在此基準測試中取得了最先進(jìn)的結果。

圖片

表 4:ShapeNetPart 上的穩健 3D 部件分割。

在 ShapeNetPart 的 3D 分割中,VointNet 的 mIoU 與其他方法的對比。

Results 結果

Voint 的主要測試結果總結在表 2、3、4 和 5 中。在 3D 分類(lèi)、檢索和穩健的 3D 零件分割任務(wù)中實(shí)現了最先進(jìn)的性能。

  • 更重要的是,在 ScanObjectNN 和 ShapeNetParts 的真實(shí)旋轉設置下,分別與點(diǎn)基線(xiàn) 相比,提高了 7.2% 以上的Acc和 25% mIoU 。
  • 按照 Hamdi 等人 (2021) 的慣例,在基準表中報告了四次運行中的最佳結果,但附錄中提供了詳細結果。
3D 形狀分類(lèi)

表 2 報告了 ScanObjectNN  上 3D點(diǎn)云分類(lèi)任務(wù)的分類(lèi)精度。它將 VointNet 與其他最近的強大基線(xiàn)進(jìn)行基準測試 。

  • VointNet 展示了所有變體的最新結果,包括具有挑戰性的 Hardest (PB_T50_RS) 變體,其中包含具有挑戰性的旋轉和平移對象場(chǎng)景。
  • 該變體的性能提升 (+2.6%)非常顯著(zhù),突出了 Voints 在具有挑戰性的場(chǎng)景中的優(yōu)勢,并在第 5.4 節中進(jìn)一步證實(shí)了結果。遵循與MVTN 中完全相同的程序。

圖片

圖 3:部件分割的定性比較。

  • 將 VointNet 3D 分割預測與使用相同訓練的 2D 主干的 Mean Fuse進(jìn)行比較。
  • 請注意 VointNet 如何區分細節部分(例如車(chē)窗框)。

圖片

表 5:3D 分類(lèi)的遮擋穩健性。

報告了 ModelNet40上針對不同數據遮擋率的測試準確性,以衡量不同 3D 方法的遮擋穩健性。

3D 形狀檢索

表 3 在 ShapeNet Core55上對 3D 形狀檢索 mAP 進(jìn)行了基準測試。

VointNet 在 ShapeNet Core55 上實(shí)現了最先進(jìn)的性能。報告了基線(xiàn)結果。

穩健的 3D 部件分割

表 4 報告了 VointNet 的實(shí)例平均分割 mIoU 與ShapeNet Parts 上的其他方法相比。報告了基準測試的兩個(gè)變體:未旋轉的歸一化設置和旋轉的真實(shí)設置。

  • 對于旋轉設置,遵循之前的 3D 文獻通過(guò)在測試時(shí)(十次運行)隨機旋轉擾動(dòng) ShapeNet 部件中的形狀來(lái)測試訓練模型的穩健性,并在表 4 中報告平均值。
  • 注意 VointNet ,在未旋轉的設置上,盡管這兩個(gè)基線(xiàn)使用與 VointNet 相同的經(jīng)過(guò)訓練的 2D 主干。
  • 此外,對于旋轉設置,點(diǎn)方法也不起作用。表 4 中的所有結果均由代碼在同一設置中重現(請參閱補充材料中隨附的代碼)。

圖 3 顯示了 VointNet 和 Mean Fuse 的定性 3D 分割結果與ground truth相比。

Occlusion Robustness 遮擋穩健性

最近研究的 3D 分類(lèi)模型的穩健性方面之一是它們對遮擋的穩健性,如 MVTN  所述。這些模擬遮擋在測試時(shí)引入,并報告每個(gè)裁剪率的平均測試精度。

  • 將 VointNet 與表 5 中的最新基線(xiàn)進(jìn)行了基準測試。
  • PointNet 和 DGCNN 被用作基于點(diǎn)的基線(xiàn),MVTN 被用作多視圖基線(xiàn)。

圖片

圖 4:視圖數量的影響。繪制 Ins。

  • 3D 分割的mIoU 與 ShapeNet 部件推理中使用的視圖數 (M)。
  • 請注意 VointNet 對 Mean Fuse  和 Label Fuse的持續改進(jìn)。
  • 兩個(gè)基線(xiàn)都使用與 VointNet 相同的經(jīng)過(guò)訓練的 2D 主干,并在相同的未旋轉設置上進(jìn)行測試。

圖片

表 6:3D 分割的消融研究。

  • 消融了 VointNet 的不同組件(2D 主干和VointConv 選擇)并報告 Ins。
  • mIoU 在 ShapeNetPart上的表現。
Analysis and Insights  分析和見(jiàn)解Number of Views 視圖數量

研究了視圖數量 M 對使用多個(gè)視圖的 3D 部件分割性能的影響。將 Mean Fuse  和 Label Fuse 與我們的VointNet 進(jìn)行比較,因為它們都具有相同的訓練的2D 主干。

  • 視圖是隨機選擇的,實(shí)驗重復四次。具有置信區間的 mIoU 如圖 4 所示。
  • 觀(guān)察到VointNet 在不同數量的視圖中比其他兩個(gè)基線(xiàn)有一致的改進(jìn)。
Choice of Backbones 骨干的選擇

消融了 2D 主干的選擇和 VointNet 中使用的VointConv 操作,并報告了分割 Ins。表 6 中的 mIoU結果。

  • 請注意 2D 主干如何極大地影響性能,而VointConv 操作類(lèi)型不會(huì )。
  • 這種消融突出了 2D 主干在 VointNet 中的重要性,并激發(fā)了 VointNet (MLP) 最簡(jiǎn)單變體的使用。

在附錄中提供了更多因素以及計算和內存成本的詳細研究。

Limitations and Acknowledgments 局限性和未來(lái)工作

這項工作介紹了 Voint cloud表示,它繼承了點(diǎn)云的優(yōu)點(diǎn)和多視圖投影的豐富視覺(jué)特征,導致增強的多視圖聚合和在許多 3D 視覺(jué)任務(wù)上的強大性能。

  • 限制 Voints 性能的一個(gè)方面是 2D 主干對下游 3D 任務(wù)的訓練。在大多數情況下,必須使用足夠的數據對 2D 主干進(jìn)行預訓練,以便為 VointNet 學(xué)習有意義的信息。
  • 限制Voint-cloud 功能的另一個(gè)方面是如何正確選擇用于分割的視點(diǎn)。滿(mǎn)足于在訓練時(shí)隨機化視圖。

解決這些局限性是未來(lái)工作的重要方向。此外,將Voint 學(xué)習擴展到更多 3D 任務(wù)(如 3D 場(chǎng)景分割和 3D對象檢測)留給未來(lái)的工作。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>