<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > ICLR2023 | 阿卜杜拉國王科技大學(xué)最新發(fā)布,3D表示新網(wǎng)絡(luò ):多視圖+點(diǎn)云!(1)

ICLR2023 | 阿卜杜拉國王科技大學(xué)最新發(fā)布,3D表示新網(wǎng)絡(luò ):多視圖+點(diǎn)云!(1)

發(fā)布人:計算機視覺(jué)工坊 時(shí)間:2023-08-22 來(lái)源:工程師 發(fā)布文章

多視圖投影方法在 3D 分類(lèi)和分割等 3D 理解任務(wù)上表現出了良好的性能。然而,目前尚不清楚如何將這種多視圖方法與廣泛使用的 3D 點(diǎn)云相結合。

人類(lèi)視覺(jué)系統更接近于使用多個(gè)視角的間接方法來(lái)理解3D物體,而不是直接處理3D數據。相比之下,間接方法通常通過(guò)渲染對象或場(chǎng)景的多個(gè)2D視圖,并使用基于2D圖像的傳統架構來(lái)處理每個(gè)圖像。人類(lèi)視覺(jué)系統更接近于這種多視圖間接方法,因為它接收到的是渲染圖像流,而不是顯式的3D數據。

引入了Voint cloud這個(gè)新的3D數據表示形式,并設計了VointNet 模型來(lái)學(xué)習和處理這種表示。Voint cloud將每個(gè)3D點(diǎn)表示為從多個(gè)視角提取的特征集合,以融合點(diǎn)云表示的緊湊性和多視圖表示的自然感知能力。

作者通過(guò)定義在Voint級別的池化和卷積操作,構建了Voint neural network (VointNet ),并利用該網(wǎng)絡(luò )在Voint空間學(xué)習3D表示。

簡(jiǎn)介

多視圖投影方法在 3D 分類(lèi)和分割等 3D 理解任務(wù)上表現出了良好的性能。然而,目前尚不清楚如何將這種多視圖方法與廣泛使用的 3D 點(diǎn)云相結合。以前的方法使用未學(xué)習的啟發(fā)式方法在點(diǎn)級別組合特征。

為此,本文引入了多視點(diǎn)云(Voint cloud)的概念,將每個(gè) 3D 點(diǎn)表示為從多個(gè)視點(diǎn)提取的一組特征。這種新穎的 3D Voint 云表示結合了 3D 點(diǎn)云表示的緊湊性和多視圖表示的自然視圖感知。自然地,可以為這個(gè)新的表示配備卷積和池化操作。

通過(guò)部署一個(gè) Voint 神經(jīng)網(wǎng)絡(luò ) (VointNet ) 來(lái)學(xué)習Voint 空間中的表征。學(xué)習的新穎表示在標準基準(ScanObjectNN、ShapeNet Core55 和 ShapeNetParts)的 3D 分類(lèi)、形狀檢索和穩健的 3D 部件分割方面均實(shí)現了最先進(jìn)的性能。

圖片

圖1: 3D Voint clouds。本文提出了多視圖點(diǎn)云(Voint cloud),這是一種新穎的3D表示,它緊湊且自然地描述了3D點(diǎn)云的視圖投影。

  • 3D云中的每個(gè)點(diǎn)都被標記為一個(gè)點(diǎn),它會(huì )累積該點(diǎn)的視圖特征。
  • 注意,并非所有的3D點(diǎn)在所有視圖中都可見(jiàn)。Voint 的集合構成了一個(gè)Voint cloud。
筆者個(gè)人體會(huì )

作者的動(dòng)機是解決在3D視覺(jué)任務(wù)中如何表示3D數據的問(wèn)題。

  • 作者觀(guān)察到在2D計算機視覺(jué)中,直接采用圖像作為輸入的方法取得了巨大的成功,而在3D視覺(jué)中,如何表示和處理3D數據仍然是一個(gè)挑戰。

    盡管深度學(xué)習在2D計算機視覺(jué)中取得了巨大成功,但在3D視覺(jué)中,如何表示和處理3D數據仍然是一個(gè)挑戰。

    3D計算機視覺(jué)和計算機圖形學(xué)的一個(gè)基本問(wèn)題是如何表示3D數據。深度學(xué)習在2D計算機視覺(jué)領(lǐng)域的成功,它在3D視覺(jué)和圖形領(lǐng)域的廣泛應用變得尤為重要。深度網(wǎng)絡(luò )已經(jīng)在多個(gè)3D任務(wù)上取得了成功,包括3D分類(lèi)、3D分割、3D檢測、3D重建和新穎視圖合成。這些方法可以依賴(lài)于直接的3D表示、圖像上的間接2D投影,或者兩者的混合。直接方法操作通常以點(diǎn)云、網(wǎng)格或體素的形式表示的3D數據。

  • 作者認為間接的多視圖方法更符合人類(lèi)視覺(jué)系統的工作方式,因為人類(lèi)接收到的是一系列渲染圖像,而不是顯式的3D數據。

    人類(lèi)視覺(jué)系統更接近于使用多個(gè)視角的間接方法來(lái)理解3D物體,而不是直接處理3D數據。

    相比之下,間接方法通常通過(guò)渲染對象或場(chǎng)景的多個(gè)2D視圖,并使用基于2D圖像的傳統架構來(lái)處理每個(gè)圖像。人類(lèi)視覺(jué)系統更接近于這種多視圖間接方法,因為它接收到的是渲染圖像流,而不是顯式的3D數據。

  • 多視圖方法在3D形狀分類(lèi)和分割任務(wù)中已經(jīng)取得了令人印象深刻的性能。然而,在多視圖表示中,如何正確聚合每個(gè)視圖的特征是一個(gè)挑戰。

    使用間接方法處理3D視覺(jué)任務(wù)具有三個(gè)主要優(yōu)勢:(i) 成熟且可遷移的2D計算機視覺(jué)模型(如CNN、Transformers等),(ii) 大型和多樣化標記圖像數據集的預訓練支持(例如ImageNet),(iii) 多視圖圖像提供了豐富的上下文特征,根據視角提供信息,與幾何3D鄰域特征不同。

    多視圖方法在3D形狀分類(lèi)和分割方面取得了令人印象深刻的性能。然而,多視圖表示(特別是在密集預測任務(wù)中)的挑戰在于如何正確地聚合每個(gè)視圖的特征以獲得具有代表性的3D點(diǎn)云。需要進(jìn)行適當的聚合操作,以獲得每個(gè)點(diǎn)具有適用于典型點(diǎn)云處理流程的單個(gè)特征。

  • 因此,動(dòng)機是將多視圖的思想與常用的3D點(diǎn)云表示相結合,以提高3D理解任務(wù)的性能。

    以前的多視圖方法依賴(lài)于啟發(fā)式方法,例如將像素映射到點(diǎn)后進(jìn)行平均或池化,或者與體素進(jìn)行多視圖融合。然而,這種啟發(fā)式方法存在一些問(wèn)題:(i) 這種方法可能會(huì )匯總來(lái)自不同視角的誤導性預測信息。例如,如果一個(gè)對象從底部視角獨立處理,而與其他視角結合時(shí)會(huì )產(chǎn)生錯誤的信息。(ii) 視圖缺乏幾何3D信息。

    為了解決這些問(wèn)題,提出了一種新的混合3D數據結構,它繼承了點(diǎn)云的優(yōu)點(diǎn)(緊湊性、靈活性和3D描述性),并利用了多視圖投影豐富的感知特征。這種新的表示稱(chēng)為多視圖點(diǎn)云(或Voint cloud)。

核心創(chuàng )新點(diǎn)

引入了Voint cloud這個(gè)新的3D數據表示形式,并設計了VointNet 模型來(lái)學(xué)習和處理這種表示。

  • Voint cloud將每個(gè)3D點(diǎn)表示為從多個(gè)視角提取的特征集合,以融合點(diǎn)云表示的緊湊性和多視圖表示的自然感知能力。

    作者通過(guò)將每個(gè)點(diǎn)表示為從多個(gè)視角提取的特征集合,構建了Voint cloud這種新的表示形式。這種表示繼承了點(diǎn)云表示的緊湊性和3D描述能力,并利用了多視圖投影的豐富感知特征。

    Voint cloud是由一組Voint組成的,每個(gè)Voint都是與視圖相關(guān)的特征(視圖特征),對應于3D點(diǎn)云中的相同點(diǎn)。每個(gè)Voint中的視圖特征的數量可能會(huì )有所不同。

    Voint cloud繼承了顯式3D點(diǎn)云的特性,這有助于學(xué)習適用于各種視覺(jué)任務(wù)(如點(diǎn)云分類(lèi)和分割)的Voint表示。為了在新的Voint空間上應用深度學(xué)習,定義了一些基本操作,如池化和卷積。這些操作允許在Voint云上進(jìn)行特征提取和處理。

  • 作者通過(guò)定義在Voint級別的池化和卷積操作,構建了Voint neural network (VointNet ),并利用該網(wǎng)絡(luò )在Voint空間學(xué)習表示。

    通過(guò)定義在Voint級別的池化和卷積操作,作者設計了VointNet 模型,可以學(xué)習和處理Voint cloud表示。通過(guò)這種方式,作者旨在提高3D視覺(jué)任務(wù)的性能,并在標準基準測試中展示出最先進(jìn)的性能。

    基于這些操作,提出了一種實(shí)用方法來(lái)構建Voint神經(jīng)網(wǎng)絡(luò ),稱(chēng)為VointNet 。VointNet 接受Voint cloud作為輸入,并輸出用于3D點(diǎn)云處理的點(diǎn)云特征。并展示了學(xué)習這種Voint cloud表示如何在ScanObjectNN和ShapeNet等數據集上產(chǎn)生良好的結果。通過(guò)VointNet 能夠有效地處理和分析3D點(diǎn)云數據,并為各種任務(wù)提供豐富的特征表示。

設計思路
  • 通過(guò)將每個(gè)點(diǎn)從不同視角的特征進(jìn)行聚合,構建一個(gè)點(diǎn)云的緊湊而豐富的表示形式。
  • 作者定義了Voint cloud的數據結構和基本操作,并在此基礎上設計了VointNet 模型。
  • VointNet 接受Voint cloud作為輸入,輸出適用于3D點(diǎn)云處理的點(diǎn)云特征。
  • 為了實(shí)現這個(gè)方法,作者在大規模的數據集上進(jìn)行了實(shí)驗和評估,并與其他方法進(jìn)行了比較。

該方法的好處:

  1. 繼承了點(diǎn)云表示的緊湊性和3D描述能力,同時(shí)利用了多視圖投影的豐富感知特征。
  2. 可以利用現有的2D計算機視覺(jué)模型和大規模圖像數據集進(jìn)行預訓練,從而實(shí)現模型的遷移和加速訓練過(guò)程。
  3. 通過(guò)Voint cloud的池化和卷積操作,可以更好地融合來(lái)自多個(gè)視角的信息,從而提高3D理解任務(wù)的性能。
  4. 在標準基準測試中,該方法取得了最先進(jìn)的性能,表明它在3D分類(lèi)、檢索和分割等任務(wù)上具有優(yōu)越性能。
  5. 對于遮擋和旋轉等問(wèn)題,該方法也展現出更好的魯棒性。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>