ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習嗎?(4)
圖2(a)展示了使用不同掩碼策略在ScanObjectNN上的平均微調準確率。
- 可以觀(guān)察到,使用隨機掩碼的較高掩碼比例會(huì )產(chǎn)生更好的結果,而塊掩碼則對較低掩碼比例更為適用。
- 需要注意的是,當掩碼比例為零時(shí),對所有標記使用基準知識蒸餾,并且導致性能較差。
- 圖2(b)展示了使用不同教師Transformer的ACT在ScanObjectNN上的平均微調準確率,包括Vision Transformers、全MLP架構、語(yǔ)言模型和視覺(jué)語(yǔ)言模型。觀(guān)察到較大的教師模型始終能夠獲得更好的性能。
此外,令人驚訝的是,ACT使用語(yǔ)言模型BERTB(即BERTbase)作為跨模態(tài)教師,可以達到平均準確率85.12±0.54%(最高可達85.88%),這表明ACT可以推廣到任何模態(tài)。
表7: dVAE標記器不同訓練策略的消融研究。
- 報告了F-Score,使用l1范數和l2范數的倒角距離,即CD- l1和CD- l2
表7展示了使用預訓練的2D圖像Transformer進(jìn)行不同訓練配置的3D自編碼器的重構結果。觀(guān)察到:
(i)帶有預訓練圖像Transformer的3D dVAE模型在重構結果上明顯優(yōu)于Point-BERT。這表明預訓練的2D圖像Transformer具有強大的對3D的表示能力。
(ii) 提示調整或凍結模型可以獲得比完全調整更好的結果,我們認為這是因為某些預訓練的2D知識被遺忘了,而提示調整有效地解決了這個(gè)問(wèn)題。重構可視化結果可以在附錄D中找到。
六、討論6.1 是所需要更強大的標記器嗎?
為了了解預訓練的2D圖像Transformer在3D dVAE模型中的必要性,我們用不同的dVAE教師和掩模建模配置進(jìn)行了實(shí)驗。
從表8中,可以看到:
(i) 當使用沒(méi)有預訓練的2D圖像變壓器的Point-BERT dVAE模型時(shí),通過(guò)提取潛在特征而不是離散令牌,可以實(shí)現+0.62%的改進(jìn)。分析認為,離散令牌識別學(xué)習起來(lái)更具挑戰性3D數據。
(ii) 當使用Point-BERT離散標記作為掩碼建模目標時(shí),通過(guò)應用帶有預訓練2D圖像Transformer的dVAE模型,得到了最差的性能。這表明,無(wú)論標記器有多強大,離散標記都不適用于語(yǔ)義稀疏的點(diǎn)云數據。
(iii) 當使用ACT時(shí),性能顯著(zhù)提高。這表明,帶有預訓練2D圖像Transformer`的3D dVAE能夠編碼具有豐富語(yǔ)義的特征,更適合于掩碼點(diǎn)建模。
表10: 二維圖像轉換器在dVAE模型中不同位置嵌入的研究。
(a)無(wú):不使用位置嵌入。(b) 2D/z:僅使用2D xy平面坐標的位置嵌入。
(c) 3D:所有3D xyz坐標的位置嵌入。
報告了F-Score,使用l1范數和l2范數的倒角距離,即CD- l1和CD-l2,以及ScanObjectNN上的OA。
由于A(yíng)CT使用編碼特征作為掩碼建模目標,它具有將我們的方法作為輔助特征蒸餾的潛力。
表9顯示了在Point-MAE模型中,使用ACT作為中間特征的輔助深度監督訓練的結果,其中ACT編碼的潛在特征被蒸餾到Point-MAE的編碼器特征中。
可以觀(guān)察到,ACT能夠顯著(zhù)提高Point-MAE在ScanObjectNN上的準確率,提高了0.87%,表明ACT作為一種知識蒸餾方法具有可擴展性和有效性。
6.3 2D Vision Transformer如何理解3D點(diǎn)云?為了更好地理解2D圖像Transformer如何通過(guò)自編碼器訓練理解3D輸入,研究了ViT-B在我們的ACT dVAE模型中使用的位置嵌入的效果。從表10可以看出:
(i) 在沒(méi)有任何位置嵌入的情況下,預訓練的ViT仍然可以學(xué)習可遷移的3D特征(準確率為84.21±0.45%)。我們認為這是因為位置幾何信息已經(jīng)包含在輸入的3D坐標中,預訓練的2D Transformer可以通過(guò)幾何特征純粹處理3D數據,而不需要顯式的位置提示。
(ii) 當僅使用2D xy平面坐標的位置嵌入時(shí),準確率顯著(zhù)提高了0.89%。我們認為2D位置嵌入是為了適應凍結的圖像Transformer而學(xué)習的,使圖像Transformer能夠將3D輸入編碼為具有高語(yǔ)義的預訓練2D特征空間。
(iii) 當使用所有3D坐標進(jìn)行位置嵌入時(shí),2D圖像Transformer成功利用了附加坐標信息來(lái)進(jìn)行更好的特征編碼。
七、總結
本文提出了一種自監督學(xué)習框架ACT,通過(guò)預訓練的基礎Transformer進(jìn)行掩碼建模,將特征蒸餾傳遞給3D Transformer學(xué)生模型。ACT首先通過(guò)自監督的3D自編碼將預訓練的基礎Transformer轉化為跨模態(tài)的3D教師模型。
然后,來(lái)自調整后的3D自編碼器的語(yǔ)義豐富的潛在特征被用作3D Transformer學(xué)生模型的掩碼建模目標,展現了在各種下游3D任務(wù)上卓越的泛化性能。作為一種通用的自監督學(xué)習框架,相信ACT可以輕松擴展到除3D數據之外的其他模態(tài)。
這種自監督方式展示了跨模態(tài)知識轉移的巨大潛力,這可能在數據驅動(dòng)的深度學(xué)習時(shí)代極大地促進(jìn)了基礎建模的發(fā)展。
附錄:可視化
圖3比較了基于2D圖像Transformer的3D dVAE和Point-BERT 3D dVAE模型的重建結果。
- 實(shí)驗結果表明,所設計的三維自編碼器能夠高質(zhì)量地重建物體細節。
- 對于一些相對簡(jiǎn)單的物體,如第二行矩形表,我們的方法和Point-BERT都可以很好地重建它們。然而,對于細節相對復雜的點(diǎn)集,如第三排的薄架子和扶手椅,我們的方法仍然可以用詳細的局部幾何信息重建物體。
- 這些定性觀(guān)察結果與表7中的定量結果一致。
圖4顯示了t-SNE在ShapeNet上進(jìn)行預訓練并在ModelNet40和ScanObjectNN PB_T50_RS數據集上進(jìn)行微調后的模型特征可視化。
可以觀(guān)察到:
(i) 在ShapeNet上進(jìn)行預訓練后,由于相對較小的域間隙,模型已經(jīng)可以在ModelNet上產(chǎn)生判別特征。
(ii) 在對下游數據集進(jìn)行微調后,在ModelNet40和具有挑戰性的ScanObjectNN數據集上都獲得了判別特征。
(iii) Shapenet預訓練ACT在ScanObjectNN上提取的特征分布看起來(lái)不那么判別性。我們認為有兩個(gè)原因導致它: (i)合成的ShapeNet和真實(shí)的ScanObjectNN數據集之間的大域差距,以及(ii) ACT使用的不是對比損失,例如區分(例如,Point-BERT使用的MoCo損失)。有趣的是,這在ScanObjectNN上產(chǎn)生了更好的泛化性能(ACT的OA為88.21%,而Point-BERT為83.07%)。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。