<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習嗎?(2)

ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習嗎?(2)

發(fā)布人:計算機視覺(jué)工坊 時(shí)間:2023-07-04 來(lái)源:工程師 發(fā)布文章
一、引言

近年來(lái),數據驅動(dòng)的深度學(xué)習在人工智能系統中得到廣泛應用。計算硬件的進(jìn)步極大地推動(dòng)了機器智能的發(fā)展,并促進(jìn)了一種新興的范式,即基于廣泛數據訓練的模型的知識轉移。

  • 自然語(yǔ)言處理 (NLP) 取得了巨大的成功,其中的模型旨在通過(guò)對極大規模數據進(jìn)行自監督學(xué)習來(lái)獲取通用表示。
  • 自從Transformer在視覺(jué)領(lǐng)域取得成功后,人們已經(jīng)做出了許多努力,將這種趨勢從NLP領(lǐng)域擴展到基于2D視覺(jué)理解的基礎模型中。

與2D視覺(jué)和NLP相比,基于基礎的視覺(jué)計算在3D社區中發(fā)展滯后。提出以下問(wèn)題:是什么使得3D表示學(xué)習比2D視覺(jué)或NLP更具挑戰性?

從以下三個(gè)角度提供一些分析性答案:

i. 架構不統一。先驅性架構如PointNet只能對3D坐標進(jìn)行編碼,而無(wú)法應用于在NLP和2D視覺(jué)中取得成功的掩碼去噪自編碼(DAE)。然而,Transformer架構現在已經(jīng)彌補了這種架構上的差距,實(shí)現了跨所有模態(tài)格式的統一表示,并為擴展3D中的DAE帶來(lái)了巨大潛力。

ii. 數據稀缺。與圖像和自由形式語(yǔ)言相比,收集和標注3D或4D數據更加困難,通常需要更昂貴且密集的工作。此外,考慮到數據規模,3D數據嚴重匱乏。這促使了跨模態(tài)知識轉移的使用。最近的研究要么與其他模態(tài)一起進(jìn)行聯(lián)合訓練以實(shí)現更有效的對比,要么直接對在圖像數據上預訓練的2D Transformers進(jìn)行微調。

iii. 模式差異。表1顯示了語(yǔ)言、2D圖像和3D點(diǎn)云的數據模式比較??梢杂^(guān)察到:

  • (i)3D點(diǎn)云通常是非結構化的,包含稀疏語(yǔ)義,不同于語(yǔ)言。這導致在點(diǎn)云上進(jìn)行掩碼去噪自編碼更加困難;
  • (ii)2D圖像在網(wǎng)格上均勻分布,而3D點(diǎn)云則是從對象表面不規則采樣。這種結構上的差異導致了單模態(tài)增強和跨模態(tài)對應的對比目標構建的困難;
  • (iii)如何設計具有豐富語(yǔ)義的更好表示成為自監督3D理解的主要目標。

在上述分析的推動(dòng)下,作者提出了將Autoencoders作為跨模態(tài)教師進(jìn)行訓練。

  • ACT利用基于2D圖像或自然語(yǔ)言預訓練的基礎Transformers作為跨模態(tài)教師,具有豐富的知識和強大的表示能力。通過(guò)這種方式,3D中的數據稀缺問(wèn)題得到緩解。
  • Transformer被用作通用的3D學(xué)習器,彌補了掩碼建模表示學(xué)習方面的架構差距。通過(guò)以自監督的方式在3D數據上微調預訓練的Transformers作為自編碼器,Transformers可以將3D點(diǎn)云轉化為具有豐富語(yǔ)義的表示形式。為了保留和繼承預訓練的基礎知識,使用了提示微調。

因此,ACT使預訓練的Transformers成為自發(fā)的跨模態(tài)教師,為3D點(diǎn)云提供了語(yǔ)義豐富的掩碼建模目標。

  • 由于預訓練的Transformers被微調為3D自編碼器,在這種跨模態(tài)Transformer轉移過(guò)程中不需要任何圖像、語(yǔ)言數據或3D下游標注。
  • 此外,由于調整后的Transformers僅用作3D Transformer學(xué)生的教師,該方法在下游特征轉移過(guò)程中不會(huì )引入額外的計算或存儲成本。

此外,進(jìn)行了各種任務(wù)的大量實(shí)驗證明了ACT預訓練3D Transformers具有出色的泛化性能。

  • 例如,在ScanObjectNN數據集上實(shí)現了平均準確率提高%。

據知,本文首次證明了預訓練的基礎Transformer可以幫助3D表示學(xué)習,而無(wú)需訪(fǎng)問(wèn)任何2D、語(yǔ)言數據或3D下游標注。ACT是一個(gè)自監督的框架,可以推廣到其他模態(tài)和任務(wù),期望這能夠推動(dòng)更多類(lèi)似ACT風(fēng)格的表示學(xué)習的探索。



表1: 數據模式比較

圖片

二、相關(guān)背景自監督的3D幾何處理表示學(xué)習

自監督的3D幾何處理表示學(xué)習目前在學(xué)術(shù)界引起了極大的興趣。

  • 傳統方法是基于重建的幾何理解預任務(wù)構建的,例如點(diǎn)云部分重排序,方向估計,局部和全局重建,流一致性,變形和遮擋。

  • 與此同時(shí),Xie等人在PointContrast中提出了學(xué)習增強點(diǎn)云之間的區分性視角一致性的方法。在這個(gè)方向上,還提出了許多相關(guān)工作。

最近,許多工作提出了應用點(diǎn)云Transformer的自編碼器(DAE)預訓練的方法,并取得了顯著(zhù)的成功。

  • Yu等人通過(guò)擴展BERT-style預訓練的思想,結合全局對比目標,開(kāi)創(chuàng )了這個(gè)方向。
  • Liu等人提出了添加一些噪聲點(diǎn),并對每個(gè)掩碼位置的掩碼標記進(jìn)行真假分類(lèi)的方法,這與Selfie的模式相似,后者對掩碼圖像塊進(jìn)行真假分類(lèi)。
  • Pang等人提出了通過(guò)對3D點(diǎn)云坐標進(jìn)行掩碼建模,在點(diǎn)云上探索MAE的方法。

作者遵循這種DAE-style表示學(xué)習范式,但與之前的方法不同,工作旨在使用由預訓練基礎Transformer編碼的潛在特征作為掩碼建模目標。

跨模態(tài)的3D表示學(xué)習

跨模態(tài)的3D表示學(xué)習旨在利用除了3D點(diǎn)云之外的更多模態(tài)內在的學(xué)習信號,例如,2D圖像被認為具有豐富的上下文和紋理知識,而自由形式的語(yǔ)言則具有密集的語(yǔ)義信息。主流方法基于全局特征匹配的對比學(xué)習進(jìn)行開(kāi)發(fā)。

  • 例如,Jing等人提出了一種判別性中心損失函數,用于點(diǎn)云、網(wǎng)格和圖像的特征對齊。
  • Afham等人提出了一種在增強的點(diǎn)云和相應渲染的2D圖像之間進(jìn)行的模態(tài)內和模態(tài)間對比學(xué)習框架。

通過(guò)利用幾何先驗信息進(jìn)行密集關(guān)聯(lián),另一項工作探索了細粒度的局部特征匹配。

  • Liu等人提出了一種對比知識蒸餾方法,用于對齊細粒度的2D和3D特征。
  • Li等人提出了一個(gè)簡(jiǎn)單的對比學(xué)習框架,用于模態(tài)內和模態(tài)間的密集特征對比,并使用匈牙利算法進(jìn)行更好的對應。

最近,通過(guò)直接使用經(jīng)過(guò)監督微調的預訓練2D圖像編碼器取得了很大的進(jìn)展。

  • Image2Point 提出了通過(guò)卷積層膨脹來(lái)傳遞預訓練權重的方法。
  • P2P 提出了將3D點(diǎn)云投影到2D圖像,并通過(guò)可學(xué)習的上色模塊將其作為圖像主干網(wǎng)絡(luò )的輸入。

一些工作也探索了預訓練基礎模型是否可以幫助3D學(xué)習。然而,本文作者的方法:

(1)不使用預訓練的2D或語(yǔ)言模型作為推斷的主干模型;

(2)在無(wú)下游3D標注的自監督預訓練過(guò)程中探索使用來(lái)自其他模態(tài)的預訓練基礎模型;

(3)不需要成對的點(diǎn)-圖像或點(diǎn)-語(yǔ)言數據。

除了2D圖像之外,還有一些工作提出利用自然語(yǔ)言進(jìn)行對比的3D表示學(xué)習,零樣本學(xué)習,以及場(chǎng)景理解。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>