MVTN:用于3D形狀識別的多視圖轉換網(wǎng)絡(luò )(ICCV2021)
論文標題:MVTN: Multi-View Transformation Network for 3D Shape Recognition
論文、項目地址:在公眾號「計算機視覺(jué)工坊」,后臺回復「MVTN」,即可直接下載。
摘要:多視圖投影方法在3D形狀識別方面能達到先進(jìn)的性能,現有的這些方法學(xué)習從多個(gè)視圖聚合信息。然而,對于所有形狀,這些視圖的相機視點(diǎn)往往是啟發(fā)式設置和固定的。為了避免當前固化的多視圖方法,研究人員引入了多視圖轉換網(wǎng)絡(luò ) (MVTN),它基于可微渲染的最新研究進(jìn)展實(shí)現3D形狀識別的視點(diǎn)回歸。因此,MVTN可以與任何用于3D形狀分類(lèi)的多視圖網(wǎng)絡(luò )一起進(jìn)行端到端的訓練。研究人員將MVTN集成到可以渲染3D網(wǎng)格或點(diǎn)云的新型自適應多視圖網(wǎng)絡(luò )中。MVTN在3D形狀分類(lèi)和3D形狀檢索任務(wù)中表現出明顯的性能提升,而無(wú)需額外的訓練監督。在這些任務(wù)中,MVTN在ModelNet40、ShapeNet Core55和最新的ScanObjectNN數據集上實(shí)現了最先進(jìn)的性能(提高了6%)。同時(shí)研究表明MVTN可以針對旋轉和遮擋提高網(wǎng)絡(luò )的魯棒性。
研究貢獻:
1.提出了MVTN網(wǎng)絡(luò ),利用可微分渲染器,支持3D形狀識別任務(wù)的端到端訓練。
2.將MVTN與多視圖方法相結合,在標準基線(xiàn)ModelNet40、ShapeNet Core55和ScanObjectNN上的3D分類(lèi)和形狀檢索方面取得了當前研究中的最佳結果。
3.MVTN針對多視圖旋轉和遮擋問(wèn)題,提高網(wǎng)絡(luò )的魯棒性,使MVTN在3D模型未完全對齊或部分裁剪的現實(shí)場(chǎng)景中更加實(shí)用。
研究方法:
1.MultiView 3D 識別概述
3D多視圖識別通過(guò)從相同形狀S的多個(gè)視點(diǎn)渲染定義了M幅圖像,這些視圖被輸入至同一個(gè)骨干網(wǎng)絡(luò )f中,使用該網(wǎng)絡(luò )提取每個(gè)視圖的判別特征,然后將這些特征在視圖中進(jìn)行聚合,進(jìn)而用于下游任務(wù),例如分類(lèi)或檢索。
Training Multi-View Networks:
上述公式中的這些參數表示影響渲染圖像的屬性,包括相機視點(diǎn)、光線(xiàn)、對象顏色和背景等。其中R是渲染器,它將形狀Sn和參數u0作為輸入以生成每個(gè)形狀的M個(gè)多視圖圖像Xn。
Canonical Views:
以前的多視圖方法主要依賴(lài)于與整個(gè)3D數據集預定義相關(guān)的場(chǎng)景參數u0。特別是,固定的攝像機視點(diǎn)通常是運用數據集中3D模型的對齊進(jìn)行選擇的。最常見(jiàn)的視圖配置是圓形和球形,圓形是在對象的一個(gè)圓上對齊視點(diǎn),球形是在對象的球體上對齊等距的視點(diǎn)。相比于上述方法,MVTN學(xué)習回歸每個(gè)形狀的觀(guān)點(diǎn),如下圖所示。
2.Multi-View Transformation Network (MVTN)
以前的多視圖方法將多視圖圖像X作為3D形狀的唯一表示,其中X使用固定的場(chǎng)景參數u0進(jìn)行渲染。本文中考慮一般性的情況,其中u是可變的,但是其在±ubound范圍內變化。該研究中,ubound是正數,它定義了場(chǎng)景參數的允許范圍,將相對應角的ubound設置為180°和90°。
Differentiable Renderer:
View-Points Conditioned on 3D Shape.:
研究人員通過(guò)學(xué)習MVTN網(wǎng)絡(luò ),將u設計為3D形狀的函數。與依賴(lài)于恒定不變的渲染參數的上述公式不同,MVTN針對每個(gè)對象形狀S自適應地預測u,并與分類(lèi)器C一起進(jìn)行優(yōu)化。經(jīng)過(guò)端到端訓練,以最大限度地減少N個(gè)對象數據集上的損失:
該公式中,G通過(guò)編碼一個(gè)3D形狀以預測其針對特定任務(wù)的多視圖網(wǎng)絡(luò )C的最佳視點(diǎn)。由于G僅用于預測視點(diǎn)而不是對對象進(jìn)行分類(lèi),因此其架構較為簡(jiǎn)單輕便。因此,研究人員使用一個(gè)簡(jiǎn)單的點(diǎn)編碼器(例如PointNet中的共享MLP),處理來(lái)自S的P個(gè)點(diǎn)并產(chǎn)生維度 b上的粗略形狀特征。然后,淺層MLP從全局形狀特征中回歸場(chǎng)景參數。為了控制預測參數u在允許的范圍ubound內,研究人員使用由ubound縮放的雙曲正切函數。
MVTN for 3D Shape Classification:
為了訓練MVTN實(shí)現3D形狀分類(lèi),研究人員定義了交叉熵損失,但也可以使用其他損失和正則化器。多視圖網(wǎng)絡(luò )(C)和MVTN(G)在相同的損失上進(jìn)行聯(lián)合訓練。該多視圖網(wǎng)絡(luò )的一個(gè)優(yōu)點(diǎn)是它能夠無(wú)縫處理3D點(diǎn)云,這在以前的多視圖方法中是不存在的。當S是3D點(diǎn)云時(shí),簡(jiǎn)單地將R定義為可微分點(diǎn)云渲染器。
MVTN for 3D Shape Retrieval:
三維形狀檢索任務(wù)定義如下:給定一個(gè)查詢(xún)形狀Sq,在大小為N的集合中找到最相似的形狀。對于這個(gè)任務(wù),研究人員遵循MVCNN中的檢索設置,并且考慮了C中分類(lèi)器之前最后一層的深層特征表示,使用LFDA以減少將這些特征投影到更具表現力的空間中,并將減少的特征視為描述形狀的特征。
實(shí)驗設置與結果:
1.數據集:ModelNet40,ShapeNet Core55,ScanObjectNN
2.Baseline:Voxel Networks,Point Cloud Networks,Multi-view Networks
3.結構:研究人員選擇MVCNN、RotationNet和ViewGCN作為在MVTN管道中選擇的多視圖網(wǎng)絡(luò )。實(shí)驗中,選擇 PointNet作為3D點(diǎn)編碼器網(wǎng)絡(luò )G,從每個(gè)網(wǎng)格中采樣P = 2048 個(gè)點(diǎn)作為點(diǎn)編碼器的輸入,并使用5層MLP進(jìn)行回歸網(wǎng)絡(luò ),它將大小為b = 40的點(diǎn)編碼器提取的點(diǎn)特征作為輸入。所有MVTN變體和baseline多視圖網(wǎng)絡(luò )使用在ImageNet上預訓練的ResNet-18作為C中的多視圖主干網(wǎng)絡(luò ),輸出特征大小為d=1024。主要分類(lèi)和檢索采用基于 MVTN-sphereal和ViewGCN的多視圖網(wǎng)絡(luò )C。
4.實(shí)驗結果:
相關(guān)實(shí)驗結果如上面幾個(gè)表格所示,其中表1在ModelNet40上比較了MVTN與其他方法的性能,與以前的方法相比,MVTN實(shí)現了93.8%的測試準確率。ViewGCN依靠來(lái)自更先進(jìn)但不可微分的OpenGL渲染器的更高質(zhì)量的圖像來(lái)實(shí)現更高的分類(lèi)性能。為了公平比較,研究人員使用MVTN中使用的渲染器生成的圖像報告了ViewGCN的性能。使用相同的渲染過(guò)程,使用MVTN提高了基線(xiàn)ViewGCN在12視圖和20視圖的分類(lèi)性能。研究人員認為可微渲染的進(jìn)展將彌合渲染圖像與原始高質(zhì)量預渲染圖像之間的差距。表2報告了12視圖MVTN在實(shí)際ScanObjectNN基準測試上的分類(lèi)精度。MVTN提高了數據集不同變體的性能。ScanObjectNN(PB_T50_RS)最困難的變體包括物體進(jìn)行平移和旋轉的挑戰性場(chǎng)景。本研究中的MVTN在這個(gè)變體上取得了最先進(jìn)的結果(+2.6%),突出了MVTN在逼真3D點(diǎn)云掃描方面的優(yōu)點(diǎn)。表3報告了MVTN的檢索mAP與最近在ModelNet40和ShapeNet Core55上的方法比較的結果。表4體現了對訓練模型魯棒性的檢測。
總結:
當前的多視圖方法依賴(lài)于與數據集對齊的固定視圖。本研究中提出了MVTN,可以在完全可微中學(xué)習回歸任何多視圖網(wǎng)絡(luò )的視點(diǎn)。MVTN利用可微渲染的最新發(fā)展,并且不需要任何額外的培訓監督。上述實(shí)驗結果體現了MVTN在3D分類(lèi)和3D形狀檢索中的優(yōu)勢。MVTN未來(lái)的研究工作可能包括將其擴展到其他3D視覺(jué)任務(wù),例如形狀和場(chǎng)景分割。此外,MVTN可以包括與攝像機視點(diǎn)不同的更復雜的場(chǎng)景參數,例如光線(xiàn)和紋理。
備注:作者也是我們「3D視覺(jué)從入門(mén)到精通」知識特邀嘉賓:一個(gè)超干貨的3D視覺(jué)學(xué)習社區
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。