<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習嗎？（3）

ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習嗎？（3）

發(fā)布人：計算機視覺(jué)工坊時(shí)間：2023-07-04 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

三、預備知識3.1 基于Transformer的3D點(diǎn)云表示

與規則網(wǎng)格上的圖像不同，點(diǎn)云被認為是不規則和結構較弱的。許多工作致力于為點(diǎn)云數據設計深度學(xué)習架構，利用點(diǎn)集的排列和平移不變性進(jìn)行特征學(xué)習。

不僅僅依賴(lài)于這樣的專(zhuān)門(mén)主干，還利用Transformer主干，這樣更容易與其他模態(tài)（如圖像和語(yǔ)言）統一，并促進(jìn)跨模態(tài)的知識傳遞。
使用專(zhuān)門(mén)的點(diǎn)網(wǎng)絡(luò )計算局部幾何塊嵌入，并將其饋送給Transformer以輸出更有效的幾何表示。

局部幾何塊嵌入

假設有一個(gè)點(diǎn)云，其中N個(gè)坐標編碼在笛卡爾空間中，

按照Yu等人（2022）的方法，首先使用最遠點(diǎn)采樣（FPS）選擇個(gè)種子點(diǎn)。
然后將點(diǎn)云 P 分組為個(gè)鄰域，其中種子點(diǎn)集的中心作為組的中心。每個(gè)鄰域包含 K 個(gè)點(diǎn)，這些點(diǎn)是通過(guò)搜索對應種子點(diǎn)的K個(gè)最近鄰點(diǎn)生成的。
在每個(gè)種子點(diǎn) 周?chē)嬎憔植繋缀翁卣?nbsp; ，通過(guò)在鄰域內對每個(gè)點(diǎn)的特征進(jìn)行最大池化得到：

其中：

是一個(gè)具有參數 θ 的點(diǎn)特征提取器，例如中的逐點(diǎn)MLP，是鄰域中第 j 個(gè)鄰點(diǎn) 的特征。
將鄰域特征作為標記特征，用于輸入接下來(lái)的Transformer塊。

Transformer點(diǎn)特征編碼

使用標準的Transformer塊作為編碼器，進(jìn)一步轉換局部塊嵌入，其中C是嵌入大小。

按照Yu等人的方法，使用一個(gè)具有可學(xué)習參數ρ的兩層MLP 作為位置嵌入，應用于每個(gè)塊以實(shí)現穩定的訓練。

式中，MSA表示多頭自注意的交替層，LN表示分層范數，MLP為兩層，其中GELU為非線(xiàn)性。是一種可學(xué)習的全局表示嵌入，以作為其可學(xué)習的位置嵌入。

3.2 知識蒸餾：掩碼建模的統一視角

掩碼建?？梢钥醋魇墙?jīng)典自編碼器（DAE）的擴展，其中采用了掩碼損失，最近已經(jīng)在語(yǔ)言模型和視覺(jué)領(lǐng)域進(jìn)行了探索。

形式上，給定一個(gè)由個(gè) token 組成的序列，例如RGB圖像或點(diǎn)云數據的標記嵌入。
目標是訓練一個(gè)學(xué)生編碼器來(lái)預測/重建來(lái)自教師編碼器的輸出，其中教師可以是離散變分自編碼器（dVAE）或簡(jiǎn)單的恒等映射。

通過(guò)這種方式，學(xué)生在教師的指導下學(xué)習數據中的深層知識。

為了損壞輸入數據，為每個(gè)位置生成一組掩碼，指示標記是否被掩碼。
使用可學(xué)習的損壞嵌入來(lái)替換被掩碼的位置，將損壞的表示輸入到編碼器或****。這里，表示Hadamard乘積，是指示函數。

在某個(gè)度量空間中定義了距離函數，作為****，目標是最小化以下距離：

****隨著(zhù)建模目標的不同而變化，例如，它是BERT的非線(xiàn)性投影，帶有softmax ，其中度量函數變成交叉熵?？梢钥醋魇茄谀＝５慕y一公式。

因此，考慮如何在掩碼3D建模中建立一個(gè)知識淵博的老師是很自然的。作者的想法是利用2D或語(yǔ)言基礎模型中的跨模式教師。

四、ACT: 自編碼器作為跨模態(tài)教師

目標是通過(guò)預訓練的2D圖像或語(yǔ)言Transformer來(lái)促進(jìn)3D表示學(xué)習，該模型具備從大規模數據中吸收的深層知識。

然而，3D點(diǎn)云與2D圖像或語(yǔ)言具有不同的結構，這使得細粒度知識的關(guān)聯(lián)變得困難。

為了解決這個(gè)問(wèn)題，采用了一個(gè)兩階段的訓練過(guò)程。ACT框架的概述如圖1所示。

階段I：調整預訓練的2D或語(yǔ)言Transformer作為3D自編碼器，通過(guò)自監督的提示調整來(lái)學(xué)習理解3D幾何。
階段II：使用預訓練的3D自編碼器作為跨模態(tài)教師，通過(guò)掩碼建模將潛在特征蒸餾到3D點(diǎn)云Transformer學(xué)生中。

4.1 3D自編碼與預訓練基礎Transformer

Transformer是最近在各個(gè)領(lǐng)域中主導的架構，可以以統一的方式對任何模態(tài)的序列數據進(jìn)行建模。

因此，可以直接使用預訓練的Transformer塊，將順序標記與輸入點(diǎn)云的3D位置嵌入一起進(jìn)行輸入。
本文使用輕量級的DGCNN對點(diǎn)云進(jìn)行處理，其中的邊緣卷積層通過(guò)參數 θ 表示。

跨模態(tài)嵌入與提示

首先，使用DGCNN風(fēng)格的補丁嵌入網(wǎng)絡(luò )對點(diǎn)云進(jìn)行編碼，產(chǎn)生一組標記嵌入：。
然后，通過(guò)提示這些標記嵌入，并將其輸入到預訓練且凍結的Transformer塊的D層中，例如2D Transformer：。在這里，使用來(lái)表示 2DTransformer 的第層。

使用個(gè)可學(xué)習的提示嵌入，應用于Transformer 的每一層。具體來(lái)說(shuō)，Transformer的第層將隱含表示從第層轉換為，如下所示:

使用這種參數高效的快速調整策略，能夠調整預訓練的基礎Transformer，同時(shí)保留盡可能多的預訓練知識。

點(diǎn)云自編碼

另一個(gè)DGCNN網(wǎng)絡(luò ) 用于從基礎Transformer嵌入的隱藏表示中提取局部幾何特征。然后，利用FoldingNet 對輸入點(diǎn)云進(jìn)行重構。

將以上3D自編碼器作為離散變分自編碼器（dVAE）進(jìn)行訓練，以最大化對數似然。這里表示原始和重構的點(diǎn)云。

整體優(yōu)化目標是最大化證據下界（ELBO），當時(shí)成立：

其中：

表示離散的3D dVAE tokenizer；
是給定離散點(diǎn)標記的dVAE****；
以自編碼方式重構輸入點(diǎn)云。

4.2 掩碼點(diǎn)建模作為跨模態(tài)的知識蒸餾

通過(guò)訓練3D自編碼器，預訓練Transformer的強表示被轉化為3D特征空間，使自編碼器自動(dòng)成為一個(gè)跨模態(tài)教師。

將在4.1節中介紹的預訓練點(diǎn)云編碼器作為教師，將3D Transformer 作為學(xué)生。

通過(guò)掩碼建模作為跨模態(tài)知識蒸餾，最小化編碼后的教師特征與學(xué)生特征之間的負余弦相似度 :

五、實(shí)驗5.1下游任務(wù)遷移學(xué)習遷移學(xué)習設置

在分類(lèi)任務(wù)中使用遷移學(xué)習的三種變體:

(a) FULL: 通過(guò)更新所有骨干和分類(lèi)頭來(lái)微調預訓練模型。

(b) MLP- linear: 分類(lèi)頭是單層線(xiàn)性MLP，只在微調時(shí)更新該分類(lèi)頭參數。

(c) MLP-3: 分類(lèi)頭是一個(gè)三層非線(xiàn)性MLP(與FULL中使用的相同)，只在微調時(shí)更新這個(gè)頭的參數。

3D真實(shí)數據集分類(lèi)

首先展示了在具有挑戰性的現實(shí)數據集ScanObjectNN上對3D形狀識別的評估。結果如表2所示，其中可以觀(guān)察到:

(i) 與FULL調優(yōu)協(xié)議下從頭開(kāi)始的Transformer基線(xiàn)相比，ACT在三個(gè)不同的ScanObjectNN基準測試上平均獲得了+10.4%的顯著(zhù)改進(jìn)。此外，通過(guò)簡(jiǎn)單的點(diǎn)云旋轉，ACT實(shí)現了+11.9%的平均改進(jìn);

(ii) 與明確以三維幾何理解為目的設計的方法相比，ACT`始終取得更好的結果。

(iii) 與其他自監督學(xué)習(SSL)方法相比，在ScanObjectNN上，ACT在所有方法中實(shí)現了最好的泛化。此外，在ScanObjectNN上使用純3D Transformer架構的方法中，ACT成功地達到了最先進(jìn)(SOTA)的性能，例如，在最具挑戰性的PB_T50_RS基準測試中，ACT比Point-MAE的準確率高出+3.0%。

表2:ScanObjectNN上的分類(lèi)結果。our1:沒(méi)有數據增強的訓練結果。
Ours2:簡(jiǎn)單點(diǎn)云旋轉訓練的結果。DA:在微調訓練期間使用數據增強。報告總體精度，即OA(%)。

3D場(chǎng)景分割

大規模3D場(chǎng)景的語(yǔ)義分割具有挑戰性，需要對上下文語(yǔ)義和局部幾何關(guān)系的理解。在表4中，報告了S3DIS數據集的結果?？梢钥吹?

(i) ACT顯著(zhù)提高了從零開(kāi)始的基線(xiàn)，mAcc和mIoU分別提高了+2.5%和+1.2%。

(ii) ACT比SSL對應的Point-MAE分別高出+1.2%和+0.4%的mAcc和mIoU，在大場(chǎng)景數據集上顯示出優(yōu)越的傳輸能力。

(iii) 僅使用幾何輸入xyz, ACT可以實(shí)現與使用xyz+rgb數據進(jìn)行細致設計的架構相當或更好的性能，包括3d特定的Transformer架構。

表4:S3DIS區域5上的語(yǔ)義分割結果。報告了所有類(lèi)別的平均準確性和平均IoU，即mAcc(%)和mIoU(%)。使用Xyz:點(diǎn)云坐標。xyz+rgb:同時(shí)使用坐標和rgb顏色。

3D合成數據集分類(lèi)

展示了在合成數據集ModelNet40上對三維形狀分類(lèi)的評估。為了證明在有限的訓練樣例下ACT的數據效率特性，首先遵循Sharma & Kaul(2020)來(lái)評估 few-shot 學(xué)習。

從表5中，可以看到:

(i) 與從頭開(kāi)始的FULL轉移基線(xiàn)相比，ACT在四種設置下分別帶來(lái)了+9.0%，+4.7%，+8.7%，+6.2%的顯著(zhù)改進(jìn)。

(ii) 與其他SSL方法相比，ACT始終實(shí)現最佳性能。

然后，在表3中展示了完整數據集上的結果，在表3中我們觀(guān)察到，與FULL協(xié)議下的從頭基線(xiàn)相比，ACT實(shí)現了+2.5%的準確率提高，并且結果與所有協(xié)議中的其他自監督學(xué)習方法相當或更好。

表3:ModelNet40數據集上的分類(lèi)結果。報告總體精度，即OA(%)。[ST]:標準Transformer架構。

表5:在ModelNet40上的Few-shot分類(lèi)，報告了總體準確率(%)。

5.2 消融研究****深度

表6展示了使用不同****深度的ACT在ScanObjectNN上的平均微調準確率?？梢钥闯?，性能對****深度不敏感，我們發(fā)現具有2個(gè)塊的****取得了最高的結果。

需要注意的是，當****深度為0時(shí)，我們采用了類(lèi)似BERT的掩碼建模架構，其中沒(méi)有****，編碼器可以看到所有的標記，包括被掩碼的標記。
我們發(fā)現這導致了較差的結果，與在2D上觀(guān)察到的數據的低語(yǔ)義性需要一個(gè)非平凡****的觀(guān)察一致。

表6: 預訓練****深度的消融研究。

圖2: 掩碼比消融研究和跨模 Transformer 教師選擇。

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

WTC-AI型太陽(yáng)能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽(yáng)能熱水器電路熱水器 | 2012-07-30

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

iPhone 16將不會(huì )預裝AI功能？計劃通過(guò)iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

CSR8670CSR8675智能語(yǔ)音Alexa藍牙方案開(kāi)發(fā)

資源下載 AI 智能語(yǔ)音 | 2017-12-14

如何快速搭建手寫(xiě)體識別演示系統

視頻 digikey AI 手寫(xiě)體識別 | 2022-07-29

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

海聯(lián)達（Aigale）Ai-HD1 無(wú)線(xiàn)全高清套件拆解

zhuwei0710 | 2013-04-28

AI+機器視覺(jué)成趨勢，圖文詳解N大應用場(chǎng)景

智能計算安森美 AI 機器視覺(jué) | 2024-07-31

大嘴業(yè)話(huà)-AI目前市場(chǎng)分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

國際奧委會(huì )：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會(huì ) 體育 | 2024-07-26

瑞薩電子AI單元解決方案成功提高GE醫療（日本）日野工廠(chǎng)的生產(chǎn)力

winni945 | 2018-09-12

萬(wàn)家樂(lè )JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬(wàn)家樂(lè ) | 2013-01-17

Nvidia的CEO談AI的未來(lái)：“我們將需要三臺電腦... 一臺來(lái)創(chuàng )建AI... 一臺來(lái)模擬AI... 一臺來(lái)運行AI”

智能計算 AI | 2024-07-31

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來(lái)頭？

視頻 AI 機器人 | 2021-02-26

蘋(píng)果承認：AI模型使用谷歌定制芯片訓練

智能計算蘋(píng)果 AI 谷歌定制芯片 | 2024-07-30

蘋(píng)果表示其AI模型是在谷歌的定制芯片上訓練的

智能計算 AI | 2024-07-30

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達創(chuàng )造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

WTC-AI太陽(yáng)能熱水器電路圖

設計方案 WTC-AI 太陽(yáng)能熱水器電路圖 | 2012-07-24

釋說(shuō)芯語(yǔ)16：硬科技：構建企業(yè)未來(lái)之路（附PPT）

jackwang | 2018-10-22

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過(guò) Meta AI 模型安全系統

智能計算 Meta AI | 2024-07-31

加大調整力度，教育部支持高校布局集成電路、AI 等專(zhuān)業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

“破局AI開(kāi)發(fā)，釋放邊緣算力開(kāi)發(fā)者訪(fǎng)談”，干貨滿(mǎn)滿(mǎn)！

視頻 intel AI OpenVINO | 2021-06-10

AI驅動(dòng)的嵌入式聲音和振動(dòng)識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>