最新綜述!單目圖像重建三維人體?。ㄇ迦A南大)
【導讀】來(lái)自南京大學(xué)和清華大學(xué)的最新研究論文《從單目圖像中恢復三維人體網(wǎng)格》,提出了從而二維數據提升至三維網(wǎng)格過(guò)程中基于優(yōu)化和基于回歸的兩種范式,第一次關(guān)注單目3D人體網(wǎng)格恢復任務(wù)的研究,并討論了有待解決的問(wèn)題和未來(lái)的發(fā)展方向。
從單目圖像中估計人體的姿勢和形狀是計算機視覺(jué)領(lǐng)域中一個(gè)長(cháng)期存在的問(wèn)題。自統計學(xué)人體模型發(fā)布以來(lái),三維人體網(wǎng)格恢復一直受到廣泛關(guān)注。
為了獲得有序的、符合物理規律的網(wǎng)格數據而開(kāi)發(fā)了兩種范式,以克服從二維到三維提升過(guò)程中的挑戰:i)基于優(yōu)化的范式,利用不同的數據項和正則化項作為優(yōu)化目標;ii)基于回歸的范式,采用深度學(xué)習技術(shù)以端到端的方式解決問(wèn)題。同時(shí),不斷提高各種數據集的3D網(wǎng)格標簽的質(zhì)量。
盡管在過(guò)去十年中,該研究取得了顯著(zhù)的進(jìn)展,但由于肢體動(dòng)作靈活、外觀(guān)多樣、環(huán)境復雜以及人工注釋不足,這項任務(wù)仍然具有挑戰性。
據調查,這是第一次關(guān)注單目3D人體網(wǎng)格恢復任務(wù)的研究。
論文鏈接:https://arxiv.org/abs/2203.01923
我們從介紹人體模型開(kāi)始,通過(guò)深入分析其優(yōu)缺點(diǎn)詳細闡述了恢復框架和訓練目標。我們還總結了數據集、評估指標和基準測試結果。最后討論了有待解決的問(wèn)題和未來(lái)的發(fā)展方向,旨在激發(fā)研究人員的積極性,促進(jìn)各位學(xué)者在這一領(lǐng)域的研究。
定期更新的項目頁(yè)面可在https://github.com/tinatiansjz/hmr-survey查看。
引言
從單目圖像中理解人類(lèi)是計算機視覺(jué)的基本任務(wù)之一。在過(guò)去的20年里,業(yè)界一直致力于預測二維內容,如關(guān)鍵點(diǎn)、輪廓和RGB圖像的局部分割。
隨著(zhù)這些進(jìn)展,研究人員進(jìn)一步尋求在3D空間中預測人類(lèi)姿勢。雖然簡(jiǎn)單的動(dòng)作可以通過(guò)2D內容或一些稀疏的3D關(guān)節相對清晰地表示出來(lái),但復雜的人類(lèi)行為需要更細致地描述人體細節。此外,因為我們使用表面皮膚與外界直接接觸而不是用未觀(guān)察到的關(guān)節,所以對身體的形狀、接觸面、手勢和表情進(jìn)行推理也是至關(guān)重要的。
近年來(lái),社區已經(jīng)將他們的興趣轉向了人體的3D網(wǎng)格恢復,以及富有表情的臉和生動(dòng)細致的手。這一趨勢與統計人體模型的成功密不可分。
如圖1所示,自2015年發(fā)布SMPL模型和2019年發(fā)布SMPL-X模型以來(lái),隨著(zhù)它們的年度引用量逐年快速增長(cháng),它們獲得了越來(lái)越多的關(guān)注。
圖 1 三種具有代表性的3D統計人體模型的年度引用,即SCAPE、SMPL和SMPL-X
人體網(wǎng)格的恢復在促進(jìn)后續任務(wù)(如衣服人體重建、動(dòng)畫(huà)和渲染)方面起著(zhù)關(guān)鍵作用。它還涉及廣泛的應用,如VR/AR內容創(chuàng )建、虛擬試穿、計算機輔助指導等等,如圖2所示。
圖 2 人體網(wǎng)格恢復的現實(shí)應用:(a)一款健身視頻游戲(b) 虛擬試穿(c)3D+AI潛水教練系統(d)游泳過(guò)程中的動(dòng)力學(xué)模擬
從單目圖像中恢復三維人體網(wǎng)格非常具有挑戰性,因為將二維觀(guān)測值提升到三維空間時(shí)存在固有的模糊性、柔性身體運動(dòng)學(xué)結構、與環(huán)境的復雜性以及人工三維數據注釋不足等問(wèn)題。
為了解決這些問(wèn)題,在該領(lǐng)域研究了兩種不同的范式,以恢復一致且物理上合理的結果。對于基于優(yōu)化的范例,通過(guò)迭代的方式將身體模型顯式地應用于二維觀(guān)測,以各種數據項和正則化項為優(yōu)化目標。對于基于回歸的范例利用神經(jīng)網(wǎng)絡(luò )強大的非線(xiàn)性映射能力,直接從原始圖像像素預測模型參數。設計了不同的網(wǎng)絡(luò )架構和回歸目標,以實(shí)現更好的性能。
同時(shí),為了促進(jìn)這項任務(wù)的研究,還投入了大量精力創(chuàng )建各種數據集。盡管近年來(lái)取得了顯著(zhù)進(jìn)展,但在實(shí)現強健、準確和高效的人體網(wǎng)格恢復的最終目標面前,業(yè)界仍然面臨著(zhù)挑戰。
本綜述主要關(guān)注深度學(xué)習時(shí)代的單目3D人體網(wǎng)格恢復方法(也稱(chēng)3D人體姿勢和形狀估計)。
將單個(gè)RGB圖像和單目RGB視頻(統稱(chēng)為「單目圖像」)作為輸入。除了從單目圖像中恢復單人外,我們還考慮了多人恢復。
對于重建目標,使用統計人體模型來(lái)估計衣服下的體型。RGBD和多視圖輸入有助于解決歧義,但它們不在本綜述的范圍內。我們只是忽略了服裝的造型,這是向照片現實(shí)主義邁進(jìn)的一步。
我們請讀者參考中關(guān)于人類(lèi)服裝重建的內容。我們也不涉及神經(jīng)渲染方面的工作,這些工作側重于外觀(guān)的建模,而不是幾何體。
這項調查也是對現有調查論文的補充,主要關(guān)注2D/3D人體姿勢估計。
其余部分組織如下:
在第2節中,我們簡(jiǎn)要介紹了人類(lèi)模型的發(fā)展歷史,并提供了SMPL模型的詳細信息,SMPL模型是人類(lèi)推理中使用最廣泛的模板。第3節描述了用手和臉進(jìn)行身體恢復和全身恢復的方法。方法分為基于優(yōu)化的范式或基于回歸的范式。在第4節和第5節中,我們將整理出幫助處理視頻或多人恢復的新模塊。然而,如果我們僅僅用常規數據項監督人體,結果可能在物理上不合理,并且存在視覺(jué)缺陷。因此,在第6節中,我們討論了通過(guò)涉及真實(shí)攝像機模型、接觸約束和人類(lèi)先驗來(lái)增強物理合理性的策略。第7節總結了常用的數據集和評估標準,以及基準排行榜。最后,我們在第8節中得出結論并指出一些有價(jià)值的未來(lái)方向。
人體網(wǎng)格恢復
自從統計身體模型發(fā)布以來(lái),研究人員利用它們從單目圖像中估計形狀和姿勢。Balan等率先從圖像中估計SCAPE的參數。
目前,學(xué)術(shù)界普遍采用SMPL進(jìn)行三維體型恢復。這要歸功于SMPL的開(kāi)源特性和它周?chē)焖侔l(fā)展的社區: Ground-Truth真相采集方法,具有擴展SMPL注釋的數據集,以及里程碑作品。
在本節中,我們將根據預先定義的人體模型來(lái)整理人體網(wǎng)格恢復的文章。身體捕捉身材和姿勢的變化,但不考慮衣服或頭發(fā)。因此,更準確地說(shuō),這些方法可以估計出穿著(zhù)衣服或緊身衣時(shí)身體的形狀和姿勢。
在圖4中,我們演示了一些有代表性的方法。我們根據它們采用的人體模型對它們進(jìn)行分類(lèi)。
圖 3 最相關(guān)的參數化人體模型和3D人體網(wǎng)格恢復方法時(shí)間軸
圖 4 基于回歸的人體網(wǎng)格恢復方法的流程
回歸網(wǎng)絡(luò )中各種輸出類(lèi)型和中間表示的說(shuō)明
我們研究了四種輸出類(lèi)型:(a)參數輸出;(b)網(wǎng)格頂點(diǎn)的三維坐標;(c)UV 位置圖;(d)在姿態(tài)和/或形狀參數上的概率分布。
在多階段框架中采用的中間表示包括(a)輪廓;(b)分割;(c) 2D位姿熱圖;(d)二維關(guān)鍵點(diǎn)坐標;(e) IUV地圖;(d)三維關(guān)鍵點(diǎn)坐標,可作為簡(jiǎn)化輸入或指導。
表 1 用于人體網(wǎng)格恢復的典型回歸方法總結
總結
在這篇論文告中,我們對過(guò)去十年中的3D人體網(wǎng)格恢復方法進(jìn)行了全面概述。分類(lèi)基于設計范式、重構粒度和應用場(chǎng)景。
我們還特別考慮了物理合理性,包括相機模型、接觸約束和人類(lèi)先驗。
在實(shí)驗部分,我們介紹了相關(guān)的數據集、評估指標,并提供了性能比較,希望促進(jìn)這一領(lǐng)域的進(jìn)步。
參考資料:
https://arxiv.org/abs/2203.01923
本文僅做學(xué)術(shù)分享,如有侵權,請聯(lián)系刪文。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。