ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習嗎?(3)
與規則網(wǎng)格上的圖像不同,點(diǎn)云被認為是不規則和結構較弱的。許多工作致力于為點(diǎn)云數據設計深度學(xué)習架構,利用點(diǎn)集的排列和平移不變性進(jìn)行特征學(xué)習。
不僅僅依賴(lài)于這樣的專(zhuān)門(mén)主干,還利用Transformer主干,這樣更容易與其他模態(tài)(如圖像和語(yǔ)言)統一,并促進(jìn)跨模態(tài)的知識傳遞。
使用專(zhuān)門(mén)的點(diǎn)網(wǎng)絡(luò )計算局部幾何塊嵌入,并將其饋送給Transformer以輸出更有效的幾何表示。
假設有一個(gè)點(diǎn)云 ,其中N個(gè)坐標編碼在 笛卡爾空間中,
- 按照Yu等人(2022)的方法,首先使用最遠點(diǎn)采樣(FPS)選擇個(gè)種子點(diǎn)。
- 然后將點(diǎn)云 P 分組為 個(gè)鄰域 ,其中種子點(diǎn)集 的中心作為組的中心。每個(gè)鄰域包含 K 個(gè)點(diǎn),這些點(diǎn)是通過(guò)搜索對應種子點(diǎn)的K個(gè)最近鄰點(diǎn)生成的。
- 在每個(gè)種子點(diǎn) 周?chē)嬎憔植繋缀翁卣?nbsp; ,通過(guò)在鄰域內對每個(gè)點(diǎn)的特征進(jìn)行最大池化得到:
其中:
- 是一個(gè)具有參數 θ 的點(diǎn)特征提取器,例如中的逐點(diǎn)MLP,是鄰域 中第 j 個(gè)鄰點(diǎn) 的特征。
- 將鄰域特征作為標記特征,用于輸入接下來(lái)的Transformer塊。
使用標準的Transformer塊作為編碼器,進(jìn)一步轉換局部塊嵌入 ,其中C是嵌入大小。
按照Yu等人的方法,使用一個(gè)具有可學(xué)習參數ρ的兩層MLP 作為位置嵌入,應用于每個(gè)塊以實(shí)現穩定的訓練。
式中,MSA表示多頭自注意的交替層,LN表示分層范數,MLP為兩層,其中GELU為非線(xiàn)性。 是一種可學(xué)習的全局表示嵌入,以 作為其可學(xué)習的位置嵌入。
3.2 知識蒸餾:掩碼建模的統一視角掩碼建??梢钥醋魇墙?jīng)典自編碼器(DAE)的擴展,其中采用了掩碼損失,最近已經(jīng)在語(yǔ)言模型和視覺(jué)領(lǐng)域進(jìn)行了探索。
- 形式上,給定一個(gè)由 個(gè) token 組成的序列 ,例如RGB圖像或點(diǎn)云數據的標記嵌入。
- 目標是訓練一個(gè)學(xué)生編碼器 來(lái)預測/重建來(lái)自教師編碼器 的輸出,其中教師可以是離散變分自編碼器(dVAE)或簡(jiǎn)單的恒等映射。
通過(guò)這種方式,學(xué)生在教師的指導下學(xué)習數據中的深層知識。
為了損壞輸入數據,為每個(gè)位置生成一組掩碼 ,指示標記是否被掩碼。
使用可學(xué)習的損壞嵌入 來(lái)替換被掩碼的位置,將損壞的表示 輸入到編碼器或****。這里,表示Hadamard乘積, 是指示函數。
在某個(gè)度量空間 中定義了距離函數 ,作為****,目標是最小化以下距離:
****隨著(zhù)建模目標的不同而變化,例如,它是BERT的非線(xiàn)性投影,帶有softmax ,其中度量函數變成交叉熵??梢钥醋魇茄谀=5慕y一公式。
因此,考慮如何在掩碼3D建模中建立一個(gè)知識淵博的老師是很自然的。作者的想法是利用2D或語(yǔ)言基礎模型中的跨模式教師。
四、ACT: 自編碼器作為跨模態(tài)教師
目標是通過(guò)預訓練的2D圖像或語(yǔ)言Transformer來(lái)促進(jìn)3D表示學(xué)習,該模型具備從大規模數據中吸收的深層知識。
然而,3D點(diǎn)云與2D圖像或語(yǔ)言具有不同的結構,這使得細粒度知識的關(guān)聯(lián)變得困難。
為了解決這個(gè)問(wèn)題,采用了一個(gè)兩階段的訓練過(guò)程。ACT框架的概述如圖1所示。
- 階段I:調整預訓練的2D或語(yǔ)言Transformer作為3D自編碼器,通過(guò)自監督的提示調整來(lái)學(xué)習理解3D幾何。
- 階段II:使用預訓練的3D自編碼器作為跨模態(tài)教師,通過(guò)掩碼建模將潛在特征蒸餾到3D點(diǎn)云Transformer學(xué)生中。
Transformer是最近在各個(gè)領(lǐng)域中主導的架構,可以以統一的方式對任何模態(tài)的序列數據進(jìn)行建模。
- 因此,可以直接使用預訓練的Transformer塊,將順序標記與輸入點(diǎn)云的3D位置嵌入一起進(jìn)行輸入。
- 本文使用輕量級的DGCNN對點(diǎn)云進(jìn)行處理,其中的邊緣卷積層通過(guò)參數 θ 表示。
- 首先,使用DGCNN風(fēng)格的補丁嵌入網(wǎng)絡(luò )對點(diǎn)云進(jìn)行編碼,產(chǎn)生一組標記嵌入:。
- 然后,通過(guò)提示這些標記嵌入,并將其輸入到預訓練且凍結的Transformer塊的D層中,例如2D Transformer:。在這里,使用 來(lái)表示 2DTransformer 的第 層。
使用 個(gè)可學(xué)習的提示嵌入 ,應用于Transformer 的每一層。具體來(lái)說(shuō),Transformer的第 層 將隱含表示 從第 層轉換為 ,如下所示:
使用這種參數高效的快速調整策略,能夠調整預訓練的基礎Transformer,同時(shí)保留盡可能多的預訓練知識。
點(diǎn)云自編碼另一個(gè)DGCNN網(wǎng)絡(luò ) 用于從基礎Transformer嵌入的隱藏表示中提取局部幾何特征。然后,利用FoldingNet 對輸入點(diǎn)云進(jìn)行重構。
將以上3D自編碼器作為離散變分自編碼器(dVAE)進(jìn)行訓練,以最大化對數似然 。這里 表示原始和重構的點(diǎn)云。
整體優(yōu)化目標是最大化證據下界(ELBO),當時(shí)成立:
其中:
- 表示離散的3D dVAE tokenizer;
- 是給定離散點(diǎn)標記的dVAE****;
- 以自編碼方式重構輸入點(diǎn)云。
通過(guò)訓練3D自編碼器,預訓練Transformer的強表示被轉化為3D特征空間,使自編碼器自動(dòng)成為一個(gè)跨模態(tài)教師。
將在4.1節中介紹的預訓練點(diǎn)云編碼器作為教師 ,將3D Transformer 作為學(xué)生。
通過(guò)掩碼建模作為跨模態(tài)知識蒸餾,最小化編碼后的教師特征與學(xué)生特征之間的負余弦相似度 :
五、實(shí)驗5.1下游任務(wù)遷移學(xué)習遷移學(xué)習設置
在分類(lèi)任務(wù)中使用遷移學(xué)習的三種變體:
(a) FULL: 通過(guò)更新所有骨干和分類(lèi)頭來(lái)微調預訓練模型。
(b) MLP- linear: 分類(lèi)頭是單層線(xiàn)性MLP,只在微調時(shí)更新該分類(lèi)頭參數。
(c) MLP-3: 分類(lèi)頭是一個(gè)三層非線(xiàn)性MLP(與FULL中使用的相同),只在微調時(shí)更新這個(gè)頭的參數。
3D真實(shí)數據集分類(lèi)首先展示了在具有挑戰性的現實(shí)數據集ScanObjectNN上對3D形狀識別的評估。結果如表2所示,其中可以觀(guān)察到:
(i) 與FULL調優(yōu)協(xié)議下從頭開(kāi)始的Transformer基線(xiàn)相比,ACT在三個(gè)不同的ScanObjectNN基準測試上平均獲得了+10.4%的顯著(zhù)改進(jìn)。此外,通過(guò)簡(jiǎn)單的點(diǎn)云旋轉,ACT實(shí)現了+11.9%的平均改進(jìn);
(ii) 與明確以三維幾何理解為目的設計的方法相比,ACT`始終取得更好的結果。
(iii) 與其他自監督學(xué)習(SSL)方法相比,在ScanObjectNN上,ACT在所有方法中實(shí)現了最好的泛化。此外,在ScanObjectNN上使用純3D Transformer架構的方法中,ACT成功地達到了最先進(jìn)(SOTA)的性能,例如,在最具挑戰性的PB_T50_RS基準測試中,ACT比Point-MAE的準確率高出+3.0%。
表2:ScanObjectNN上的分類(lèi)結果。our1:沒(méi)有數據增強的訓練結果。
Ours2:簡(jiǎn)單點(diǎn)云旋轉訓練的結果。DA:在微調訓練期間使用數據增強。報告總體精度,即OA(%)。
大規模3D場(chǎng)景的語(yǔ)義分割具有挑戰性,需要對上下文語(yǔ)義和局部幾何關(guān)系的理解。在表4中,報告了S3DIS數據集的結果??梢钥吹?
(i) ACT顯著(zhù)提高了從零開(kāi)始的基線(xiàn),mAcc和mIoU分別提高了+2.5%和+1.2%。
(ii) ACT比SSL對應的Point-MAE分別高出+1.2%和+0.4%的mAcc和mIoU,在大場(chǎng)景數據集上顯示出優(yōu)越的傳輸能力。
(iii) 僅使用幾何輸入xyz, ACT可以實(shí)現與使用xyz+rgb數據進(jìn)行細致設計的架構相當或更好的性能,包括3d特定的Transformer架構。
表4:S3DIS區域5上的語(yǔ)義分割結果。報告了所有類(lèi)別的平均準確性和平均IoU,即mAcc(%)和mIoU(%)。使用Xyz:點(diǎn)云坐標。xyz+rgb:同時(shí)使用坐標和rgb顏色。
展示了在合成數據集ModelNet40上對三維形狀分類(lèi)的評估。為了證明在有限的訓練樣例下ACT的數據效率特性,首先遵循Sharma & Kaul(2020)來(lái)評估 few-shot 學(xué)習。
從表5中,可以看到:
(i) 與從頭開(kāi)始的FULL轉移基線(xiàn)相比,ACT在四種設置下分別帶來(lái)了+9.0%,+4.7%,+8.7%,+6.2%的顯著(zhù)改進(jìn)。
(ii) 與其他SSL方法相比,ACT始終實(shí)現最佳性能。
然后,在表3中展示了完整數據集上的結果,在表3中我們觀(guān)察到,與FULL協(xié)議下的從頭基線(xiàn)相比,ACT實(shí)現了+2.5%的準確率提高,并且結果與所有協(xié)議中的其他自監督學(xué)習方法相當或更好。
表3:ModelNet40數據集上的分類(lèi)結果。報告總體精度,即OA(%)。[ST]:標準Transformer架構。
表5:在ModelNet40上的Few-shot分類(lèi),報告了總體準確率(%)。
表6展示了使用不同****深度的ACT在ScanObjectNN上的平均微調準確率??梢钥闯?,性能對****深度不敏感,我們發(fā)現具有2個(gè)塊的****取得了最高的結果。
需要注意的是,當****深度為0時(shí),我們采用了類(lèi)似BERT的掩碼建模架構,其中沒(méi)有****,編碼器可以看到所有的標記,包括被掩碼的標記。
我們發(fā)現這導致了較差的結果,與在2D上觀(guān)察到的數據的低語(yǔ)義性需要一個(gè)非平凡****的觀(guān)察一致。
表6: 預訓練****深度的消融研究。
圖2: 掩碼比 消融研究和跨模 Transformer 教師選擇。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。