<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習嗎?(1)

ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習嗎?(1)

發(fā)布人:計算機視覺(jué)工坊 時(shí)間:2023-07-04 來(lái)源:工程師 發(fā)布文章
筆者個(gè)人體會(huì )

這篇論文的動(dòng)機是解決3D數據表示學(xué)習中存在的挑戰,即3D數據與2D圖像或語(yǔ)言具有不同的結構,使得在細粒度知識的關(guān)聯(lián)方面存在困難。作者希望通過(guò)自監督學(xué)習的方式,將來(lái)自圖像領(lǐng)域的豐富知識應用于3D數據的表示學(xué)習中,從而提高3D任務(wù)的性能。作者提出一種自監督學(xué)習框架,用于跨模態(tài)的知識傳遞和特征蒸餾,以改善3D數據的表示學(xué)習和下游任務(wù)性能。

核心創(chuàng )新點(diǎn)是框架中的ACT(Autoencoding Cross-Transformers),它將預訓練的基礎Transformer模型轉化為跨模態(tài)的3D教師模型,并通過(guò)自編碼和掩碼建模將教師模型的特征蒸餾到3D Transformer學(xué)生模型中。

作者通過(guò)以下方式設計和實(shí)現ACT框架:

  1. 首先,使用3D自編碼器將預訓練的基礎Transformer轉化為3D教師模型。這個(gè)自編碼器通過(guò)自監督訓練從3D數據中學(xué)習特征表示,并生成語(yǔ)義豐富的潛在特征。
  2. 接著(zhù),設計了掩碼建模方法,其中教師模型的潛在特征被用作3D Transformer學(xué)生模型的掩碼建模目標。學(xué)生模型通過(guò)優(yōu)化掩碼建模任務(wù)來(lái)學(xué)習表示,以捕捉3D數據中的重要特征。
  3. 使用預訓練的2D圖像Transformer作為教師模型,因為它們在2D圖像領(lǐng)域表現出色,并且作者認為它們可以學(xué)習遷移的3D特征。

ACT框架包括以下主要部分:

  1. 預訓練的2D圖像或語(yǔ)言Transformer:作為基礎Transformer模型,具有豐富的特征表示能力。作者選擇了先進(jìn)的2D Transformer模型作為基礎模型,例如Vision Transformers (ViTs) 或者語(yǔ)言模型(如BERT)。

    訓練:使用大規模的2D圖像或語(yǔ)言數據集進(jìn)行預訓練,通過(guò)自監督學(xué)習任務(wù)(如自編碼器或掩碼建模)來(lái)學(xué)習模型的特征表示能力。

  2. 3D自動(dòng)編碼器:通過(guò)自監督學(xué)習,將2D圖像或語(yǔ)言Transformer調整為3D自動(dòng)編碼器,用于學(xué)習3D幾何特征。作者將預訓練的2D圖像或語(yǔ)言Transformer模型轉換為3D自動(dòng)編碼器。通過(guò)將2D模型的參數復制到3D模型中,并添加適當的層或模塊來(lái)處理3D數據。

    使用3D數據集進(jìn)行自監督學(xué)習,例如預測點(diǎn)云數據的遮擋部分、點(diǎn)云重建或其他3D任務(wù)。通過(guò)自監督學(xué)習任務(wù),3D自動(dòng)編碼器可以學(xué)習到3D數據的幾何特征。

  3. 跨模態(tài)教師模型:將預訓練的3D自動(dòng)編碼器作為跨模態(tài)教師模型,通過(guò)掩碼建模的方式將潛在特征傳遞給3D Transformer學(xué)生模型。

    特征傳遞:通過(guò)掩碼建模的方式,將3D自動(dòng)編碼器的潛在特征傳遞給3D Transformer學(xué)生模型。教師模型生成的潛在特征被用作學(xué)生模型的蒸餾目標,以引導學(xué)生模型學(xué)習更好的3D表示。

  4. 3D Transformer學(xué)生模型:接收來(lái)自教師模型的潛在特征,并用于學(xué)習3D數據的表示。

    特征蒸餾:學(xué)生模型通過(guò)特征蒸餾的方式,利用教師模型的潛在特征作為監督信號,從而學(xué)習到更準確和具有豐富語(yǔ)義的3D表示。

這種設計和實(shí)現帶來(lái)了多個(gè)好處:

  1. ACT框架能夠實(shí)現跨模態(tài)的知識傳遞,將來(lái)自圖像領(lǐng)域的知識應用于3D數據中的表示學(xué)習,提高了3D任務(wù)的性能。
  2. 通過(guò)使用預訓練的2D圖像Transformer作為教師模型,ACT能夠利用圖像領(lǐng)域已有的豐富特征表示,提供更有語(yǔ)義的特征編碼。
  3. 自編碼和掩碼建模任務(wù)使得學(xué)生模型能夠通過(guò)無(wú)監督學(xué)習捕捉3D數據中的重要特征,從而更好地泛化到不同的下游任務(wù)。

總的來(lái)說(shuō),ACT框架的核心創(chuàng )新在于將自監督學(xué)習和特征蒸餾方法應用于3D數據中,實(shí)現了知識傳遞和表示學(xué)習的改進(jìn),為跨模態(tài)學(xué)習和深度學(xué)習模型的發(fā)展提供了新的思路和方法。



摘要

深度學(xué)習的成功在很大程度上依賴(lài)于具有全面標簽的大規模數據,在獲取3D數據方面比2D圖像或自然語(yǔ)言更昂貴且耗時(shí)。這促使我們有可能利用用于不同模態(tài)知識轉移的以3D數據為基礎的預訓練模型作為教師。

本文以統一的知識蒸餾方式重新考慮了掩碼建模,并且展示了基于2D圖像或自然語(yǔ)言預訓練的基礎Transformer模型如何通過(guò)訓練作為跨模態(tài)教師的自編碼器(ACT)來(lái)幫助無(wú)監督學(xué)習的3D表示學(xué)習。

  • 預訓練的Transformer模型通過(guò)使用離散變分自編碼的自監督來(lái)作為跨模態(tài)的3D教師進(jìn)行轉移,在此過(guò)程中,Transformer模型被凍結并進(jìn)行提示調整,以實(shí)現更好的知識傳承。
  • 由3D教師編碼的潛在特征被用作掩碼點(diǎn)建模的目標,其中暗知識被提煉到作為基礎幾何理解的3D Transformer學(xué)生中。

預訓練的ACT 3D學(xué)習者在各種下游基準測試中實(shí)現了最先進(jìn)的泛化能力,例如在ScanObjectNN上的 %整體準確率。

圖片

圖1 ACT框架的概述。

  • (a)ACT利用在大規模數據上預訓練的Transformer模型,例如使用2D圖像預訓練的ViT或使用語(yǔ)言預訓練的BERT。
  • (b)ACT的第一階段(第4.1節),預訓練的Transformer模型通過(guò)帶提示的自監督3D自編碼進(jìn)行微調。
  • (c)ACT的第二階段(第4.2節),3D自編碼器編碼器被用作跨模態(tài)教師,將潛在特征編碼為掩碼點(diǎn)建模目標,用于3D Transformer學(xué)生的表示學(xué)習。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>