深度學(xué)習|三維重建:R-MVSNet
作者丨任乾@知乎
來(lái)源丨h(huán)ttps://zhuanlan.zhihu.com/p/111210140
編輯丨計算機視覺(jué)工坊
這是我之前在泡泡機器人上翻譯的文章,放在這里做個(gè)備份,原文鏈接:https://www.sohu.com/a/334072786_715754
一、背景
該文章來(lái)自香港科技大學(xué)和深圳A(yíng)ltizure公司的研究團隊,該團隊在2018年ECCV上提出了MVSNet,用于高精度多視圖三維重建,但由于該網(wǎng)絡(luò )內存消耗過(guò)大,無(wú)法應用到大場(chǎng)景中去,因此他們又提出了R-MVSNet,引入循環(huán)神經(jīng)網(wǎng)絡(luò )架構,以減小內存消耗。
二、摘要
深度學(xué)習已經(jīng)被證明在多視圖三維重建(MVS)中可以取得很好的效果,但是,現有的基于深度學(xué)習的三維重建方法最大的限制是尺度問(wèn)題,大量的內存需求導致這些方法無(wú)法被應用在大尺度場(chǎng)景中。在本文中,我們提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò )的方法R-MVSNet,以適應各種尺度的環(huán)境。與原有方法一次性構建3D代價(jià)體(cost volume)不同,該方法依序地在深度方向通過(guò)GRU單元正則化2D代價(jià)圖(cost map)。這樣就可以在顯著(zhù)減小內存消耗的情況下完成高精度三維重建。我們首先展示了該方法在MVS數據集上的優(yōu)秀表現,然后給出了它在大尺度數據集上的結果,在這種尺度的環(huán)境下,原有方法無(wú)法完成重建任務(wù)。開(kāi)源代碼的鏈接為:https://link.zhihu.com/?target=https%3A//github.com/YoYo000/MVSNet
三、算法介紹
1. MVSNet
由于本文方法是從MVSNet改進(jìn)而來(lái),很多東西一脈相承,因此為了把本文方法說(shuō)清楚,需要先簡(jiǎn)要介紹下。它的主要貢獻包括以下三點(diǎn):
1)提出了一個(gè)用于多視圖三維重建的端到端深度學(xué)習網(wǎng)絡(luò )。
2)提出基于單應變換的2D到3D轉換方法, 將相機的幾何關(guān)系結合到神經(jīng)網(wǎng)絡(luò )之中。
3)提出一種基于動(dòng)態(tài)的損失度量方法, 以適應不同數目的多視角圖像的輸入。
MVSNet的網(wǎng)絡(luò )結構如下圖所示
MVSNet先通過(guò)特征提取網(wǎng)絡(luò )提取圖像特征,再通過(guò)2D到3D的單應變換,把特征映射到參考圖像的可視空間中以構建代價(jià)體(cost volume),然后使用一個(gè)多尺度的三維卷積網(wǎng)絡(luò )優(yōu)化代價(jià)體得到三維概率空間,通過(guò)深度期望的方式得到參考圖像的初始深度圖以及對應的概率圖,最后把參考圖像及其深度圖傳入深度圖優(yōu)化網(wǎng)絡(luò ),得到優(yōu)化后的深度圖。得到深度圖便得到物體的三維模型。
2. R-MVSNet
由于MVSNet需要一次性?xún)?yōu)化所有的3D代價(jià)體,因此需要大量的內存存儲所有圖像對應的數值,當尺度大了以后,如果內存滿(mǎn)足不了要求,便無(wú)法再進(jìn)行三維重建了。我們知道循環(huán)神經(jīng)網(wǎng)絡(luò )可以按照一定序列處理輸入數據,因此作者把這種結構借鑒過(guò)來(lái),順序處理輸入圖像,以達到節省內存的目的。R-MVSNet的網(wǎng)絡(luò )結構如下圖所示:
在R-MVSNet中,首先使用2D特征提取層提取輸入圖像的特征,再使用單應矩陣變換到參考影像的相機視錐體的正面平行面上,然后在不同深度計算代價(jià),并經(jīng)由卷積的GRU單元進(jìn)行正則化,這樣就可以沿著(zhù)深度方向逐漸獲取整個(gè)物體的幾何信息。
四、實(shí)驗結果
論文中方法在DTU數據集上的結果如表所示,從表中的數據可以看出,本文提出的方法要優(yōu)于其他方法。
作者還給出了該方法在大尺度數據集上的效果,以體現該算法的優(yōu)勢。如下圖所示
五、總結思考
MVSNet以及R-MVSNet在深度學(xué)習與多視圖幾何相結合的方法上給我們提出了新的思路,過(guò)去在三維重建或者SLAM領(lǐng)域有兩種方法一直在爭論,一種是直接使用端到端的方式,輸入圖像,輸出深度信息和相機外參,另一種認為深度學(xué)習沒(méi)有充分利用已有的幾何模型,棄明確模型于不顧,反而求諸于解釋性差的深度學(xué)習,不明智,因此他們主張深度學(xué)習只適合用于特征提取,在完成特征提取以后,便要用傳統多視圖幾何的方法進(jìn)行后續的位姿解算工作。而本文雖然是使用端到端的方式,但是在構建網(wǎng)絡(luò )時(shí),把單應矩陣也構建在內,并沒(méi)有棄模型于不顧,這樣就能夠把幾何模型與前面的特征提取融合在一個(gè)網(wǎng)絡(luò )中,結合二者所長(cháng)。
本文僅做學(xué)術(shù)分享,如有侵權,請聯(lián)系刪文。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。