<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > Meta研究:基于頭顯攝像頭進(jìn)行姿態(tài)估計的方法和優(yōu)缺點(diǎn)

Meta研究:基于頭顯攝像頭進(jìn)行姿態(tài)估計的方法和優(yōu)缺點(diǎn)

發(fā)布人:傳感器技術(shù) 時(shí)間:2023-05-31 來(lái)源:工程師 發(fā)布文章

通過(guò)頭顯攝像頭進(jìn)行自我姿態(tài)追蹤

目前大多數基于VR一體機的Avatar系統都沒(méi)有下半身,一個(gè)重要的原因是,盡管設備能夠通過(guò)內向外追蹤實(shí)現頭部和雙手的動(dòng)捕,而這又使得估計手臂和胸部的位置相對容易,但系統難以判斷你的腿、腳或臀部位置,所以今天的Avatar一直都是缺失下半截。  

如果有關(guān)注映維網(wǎng)的論文分享,你應該會(huì )注意到Meta一直有在進(jìn)行相關(guān)研究,尤其是通過(guò)機器學(xué)習/深度學(xué)習/人工智能等技術(shù)來(lái)實(shí)現基于純頭顯攝像頭的全身動(dòng)捕解決方案。

在早前發(fā)布的論文《SelfPose: 3D Egocentric Pose Estimation From a Headset Mounted Camera》中,Meta聯(lián)合倫敦大學(xué)學(xué)院,布倫瑞克工業(yè)大學(xué),馬克斯·普朗克智能系統和卡內基梅隆大學(xué)等機構探索了基于頭顯攝像頭來(lái)進(jìn)行自我姿態(tài)估計的方法。

AR/VR體驗需要由用戶(hù)姿態(tài)的顯式表征所驅動(dòng)。特別地,其需要從設備的角度估計用戶(hù)的姿態(tài),這隱含地對應于以自我為中心的角度,亦即與用戶(hù)3D頭部和身體姿態(tài)相應對的“Egopose/自我姿態(tài)”。自我姿態(tài)驅動(dòng)著(zhù)在A(yíng)R和VR中構建自然體驗所需的必要輸入。

自我姿態(tài)估計是一項具有挑戰性的任務(wù)?,F有的方法通常分為兩類(lèi):基于非光學(xué)傳感器的方法和基于攝像頭的方法?;趥鞲衅鞯姆椒ㄒ蕾?lài)于磁性和慣性屬性,并給出了自我姿態(tài)的穩健估計。然而,它們需要特殊設計且難以設置的設備,并且具有限定用戶(hù)一般性移動(dòng)的侵入性。

基于攝像頭的方法則侵入性較小,可以在不同的環(huán)境中工作。其中一類(lèi)方法依靠自上而下的朝內式攝像頭來(lái)獲得用戶(hù)的最佳視圖,而另一類(lèi)方法則使用窄視場(chǎng)前向攝像頭(用戶(hù)不可見(jiàn))。只要能夠清楚地“看到”身體部位,前一種設置可以產(chǎn)生可靠的結果,但朝內式攝像頭需要向前延伸,以避免鼻子和臉頰被遮擋。當用戶(hù)離開(kāi)視場(chǎng)時(shí),姿態(tài)估計將完全失敗。后一種設置的優(yōu)點(diǎn)是在看不到用戶(hù)的情況下估計自我姿態(tài),但它難以解析模糊的身體姿態(tài),尤其是手臂姿態(tài)。

圖1說(shuō)明了本篇論文所希望解決的問(wèn)題:目標是從以自我為中心的攝像頭角度推斷2D和3D姿勢信息,如關(guān)節位置和旋轉,這是將運動(dòng)從原始用戶(hù)轉移到通用Avatar或收集用戶(hù)姿勢信息的必需項。

圖片

圖1

團隊的配置中使用的單目攝像頭安裝在頭顯邊緣(如圖1a所示),距離平均尺寸的鼻子大約2厘米,朝下。圖2進(jìn)一步顯示了攝像頭在不同身體配置下看到的圖像。最上面一行顯示了從以自中心的角度來(lái)看,什么身體部位會(huì )變得自遮擋。從亮紅色到深綠色的連續漸變編碼相應著(zhù)色區域的像素分辨率的增加。

圖片

圖2

上圖顯示了同一角色的不同姿勢的可視化。最上方是從外部攝像頭視點(diǎn)渲染的姿勢。白色代表遮擋,遮擋是從以自中心角度看不到的身體部位。最下方是從以自為中心攝像頭視點(diǎn)渲染的姿勢。顏色梯度表示身體每個(gè)區域的圖像像素密度:綠色表示像素密度較高,而紅色表示像素密度較低。

圖表說(shuō)明了自中心人體姿勢估計所面臨的挑戰:嚴重的自遮擋、極端的****效果和較低的下半身像素密度。

有數個(gè)挑戰導致了這個(gè)問(wèn)題的困難:

  • (1)由于魚(yú)眼透鏡和攝像頭靠近面部,會(huì )出現強烈的****失真。這導致圖像具有強烈的徑向失真,并且上半身和下半身之間的圖像分辨率存在巨大差異,如圖2底部一行所示。因此,從正面或360度偏航視圖進(jìn)行2D身體姿態(tài)估計的最先進(jìn)方法在這類(lèi)圖像上會(huì )失敗

  • (2) 在許多情況下,身體會(huì )發(fā)生自遮擋,尤其是在下半身,這需要對關(guān)節位置具有很強的空間意識;

  • (3) 自為中心三維身體姿態(tài)估計是計算機視覺(jué)中一個(gè)相對未探索的問(wèn)題,因此公眾可訪(fǎng)問(wèn)的標記數據集很少;

  • (4) 正如傳統的3D身體姿態(tài)估計所示,當在三維中lift二維關(guān)節位置時(shí),存在自然模糊性。

這種不同尋常的自中心視覺(jué)表現需要一種全新的方法和全新的訓練語(yǔ)料庫,而本篇論文正是主要針對這兩個(gè)問(wèn)題。他們提出的全新神經(jīng)網(wǎng)絡(luò )架構編碼了由不同分辨率、極端視角效應和自遮擋引起的上下身體關(guān)節之間的不確定性差異。

團隊使用真實(shí)的3D注釋對合成基準和真實(shí)世界基準進(jìn)行了定量和定性評估,并表明所述方法的性能比以前的Mo2Cap2高出25%以上。消融研究表明,引入新型multi-branch****來(lái)重建2D輸入熱圖和旋轉是3D姿態(tài)估計的顯著(zhù)改進(jìn)的原因。

架構

團隊提出了用于3D姿態(tài)估計的深度學(xué)習架構。這是一種由兩個(gè)主要模塊組成的兩步方法:i)第一個(gè)模塊檢測圖像空間中身體關(guān)節位置的2D熱圖;ii)第二個(gè)模塊將從前面模塊生成的2D熱圖預測作為輸入,并使用新穎的multi-branch自動(dòng)編碼器架構回歸身體關(guān)節的3D坐標,并根據骨骼層次的局部關(guān)節旋轉和重建的熱圖預測。

圖片

這種管道方法最重要的優(yōu)點(diǎn)之一是,可以根據可用的訓練數據獨立訓練2D和3D模塊。例如,如果具有3D注釋的足夠大的圖像語(yǔ)料庫不可用,則可以使用3D mocap數據及其投影熱圖來(lái)獨立地訓練3D lifting模塊。一旦對這兩個(gè)模塊進(jìn)行了預訓練,整個(gè)架構就可以端到端地進(jìn)行微調,因為它完全可微分。

multi-branch自動(dòng)編碼器模塊同時(shí)提供了具有姿勢的多個(gè)表示的能力,例如關(guān)節位置和局部旋轉等。所述架構的另一個(gè)優(yōu)點(diǎn)是,第二和第三branch只在訓練時(shí)需要,并且可以在測試時(shí)刪除,從而保證更好的性能和更快的執行。

二維姿勢檢測

給定RGB圖像I∈R368×368×3作為輸入,2D姿勢檢測器推斷2D姿勢,表示為一組熱圖HM∈R47×47×15,每個(gè)身體關(guān)節一個(gè)。對于這項任務(wù),團隊已經(jīng)試驗了不同的標準架構,包括ResNet 50和U-Net。

他們使用歸一化輸入圖像對模型進(jìn)行訓練。其中,圖像是通過(guò)減去平均值并除以標準差獲得。然后,他們使用ground truth熱圖與預測熱圖之間差異的均方誤差作為損失:


二維到三維映射

3D姿態(tài)模塊將第一模塊計算的15個(gè)熱圖作為輸入,并輸出最終的3D姿態(tài)P∈R16×3作為一組關(guān)節位置。請注意,輸出3D關(guān)節的數量為16,因為包括頭部(盡管頭部在視場(chǎng)之外,但它可以在3D中回歸)。

團隊的方法從輸入熱圖預測3D姿勢,而不僅僅是2D位置。主要優(yōu)點(diǎn)是熱圖攜帶了與2D姿態(tài)估計的不確定性相關(guān)的重要信息。

所提出的架構的主要新穎性是,確保熱圖表示中表達的不確定性信息不會(huì )丟失,它在姿態(tài)嵌入中得到了保留。當編碼器將一組熱圖作為輸入并將其編碼到嵌入z

中時(shí),****有多個(gè)branch。首先從z

回歸3D姿勢;2nd估計局部關(guān)節旋轉(相對于父節點(diǎn));以及3rd重構輸入熱圖。所述branch的目的是迫使latent向量對估計的2D熱圖的概率密度函數進(jìn)行編碼。

自動(dòng)編碼器的整體損失函數表示為:

圖片

研究人員測試了不同的局部聯(lián)合旋轉表示,而由于訓練過(guò)程中旋轉的穩定性,他們最終選擇了四元數表示,從而產(chǎn)生更穩健的模型。旋轉branch同時(shí)有助于生成更好的結果,在逐幀估計的姿勢上,連續幀上的過(guò)渡更平滑。

使用估計旋轉的角色動(dòng)畫(huà)

由multi-branch自動(dòng)編碼器架構生成的姿態(tài)嵌入估計包含姿態(tài)的相關(guān)基本信息,這使得能夠基于特定應用程序更改/添加表示。具體而言,旋轉branch的引入改善了整體重建誤差,如表2所示,并且它是可用于角色動(dòng)畫(huà)的姿勢定義。

圖片

根據骨架層次,由旋轉branch估計的關(guān)節旋轉表示為每個(gè)關(guān)節相對于父節點(diǎn)的局部旋轉。與原始動(dòng)畫(huà)相比,顯示受驅動(dòng)角色的示例幀如圖6所示。請注意,即使對于A(yíng)vatar的四肢落在攝像頭視場(chǎng)之外的姿勢,模型都能夠可靠地估計正確的旋轉。另外,盡管逐幀計算估計,但連續幀中的姿態(tài)之間存在時(shí)間一致性。

圖片


圖7則顯示了從輸入圖像估計的關(guān)節角度預測。具體來(lái)說(shuō),關(guān)節角度與ground truth一致。旋轉是平滑的,網(wǎng)絡(luò )在預測中引入了有限的“抖動(dòng)”偽影。

熱圖估計:架構消融

到目前為止,團隊在所有實(shí)驗中都使用了已建立的ResNet 50架構。為了研究熱圖估計網(wǎng)絡(luò )的效果,他們對不同的架構和初始化策略進(jìn)行了實(shí)驗。

結果表明,預訓練有幫助。與隨機初始化的54.7相比,使用預訓練的ResNet 50的完整管道將MPJPE誤差優(yōu)化至51.1 mm,見(jiàn)表4。

圖片

盡管有研究表明,預訓練通常是不必要的,但團隊指出,預訓練確實(shí)可以在兩個(gè)方面有所幫助。首先,預訓練有助于加快收斂速度。其次,對于小型數據集,預訓練有助于提高準確性。盡管他們的合成數據集很大,但與MPII等大型真實(shí)世界數據集相比,它在場(chǎng)景和主題方面的可變性較小。

在下一步中,研究人員使用U-Net進(jìn)行2D姿態(tài)估計實(shí)驗。使用U-Net架構可以提高管道的性能,并將MPJPE誤差顯著(zhù)優(yōu)化至41.0mm。

基于Resnet 50的估計器在沒(méi)有事先細化的情況下失敗。他們假設,改進(jìn)的性能和在真實(shí)圖像上觀(guān)察到的行為證明了U-Net更好的泛化特性。為了支持假設,團隊進(jìn)行了一個(gè)額外的實(shí)驗。將高斯白噪點(diǎn)添加到合成數據集的測試圖像中,并使用不同的2D姿態(tài)估計網(wǎng)絡(luò )來(lái)測量管道的性能。

圖8繪制了不同噪點(diǎn)水平下的MPJPE誤差。值得注意的是,基于U-Net的管道的誤差增加緩慢,而基于Resnet 50的管道在小噪點(diǎn)水平下已經(jīng)產(chǎn)生了大的誤差。這種行為支持了假設,即U-Net架構具有更好的泛化特性。

圖片

liftIng網(wǎng)絡(luò ):參數消融

為了驗證multi-branch三維姿態(tài)lifting網(wǎng)絡(luò )的架構設計選擇,團隊對兩個(gè)主要參數進(jìn)行了消融研究。

首先,找到嵌入z

的最佳大小,它對3D姿勢、關(guān)節旋轉和2D姿勢的不確定性進(jìn)行編碼。表6列出了所有三種不同熱圖估計網(wǎng)絡(luò )使用不同尺寸的z

的MPJPE誤差。無(wú)論熱圖估計網(wǎng)絡(luò )的選擇如何,z^∈R50都能產(chǎn)生最好的結果。較小的嵌入會(huì )產(chǎn)生明顯更高的誤差,而較大的嵌入只會(huì )稍微影響結果。


自中心的真實(shí)數據集評估

圖片

與Mo2Cap2的比較。團隊將方法的結果與直接競爭對手Mo2Cap2進(jìn)行了比較,包括室內和室外序列。為了進(jìn)行公平的比較,僅根據他們提供的合成訓練數據來(lái)訓練模型。表8報告了兩種方法的MPJPE錯誤。

圖片

可以看出,團隊的方法在室內和室外場(chǎng)景中都大大優(yōu)于Mo2Cap2。在這里,使用在ImageNet上預先訓練的U-Net模型的方法產(chǎn)生了最好的結果。但在室內,在更受控制的環(huán)境中,兩種架構變體幾乎不相上下。

團隊架構的一個(gè)重要優(yōu)勢是,模型可以同時(shí)在3D和2D數據集的混合上進(jìn)行訓練:如果圖像樣本只有2D注釋?zhuān)珱](méi)有3D ground truth標簽,則樣本依然可以使用,只有熱圖會(huì )導致?lián)p失。

他們評估了在兩種場(chǎng)景中添加帶有2D但沒(méi)有3D標簽的額外圖像的效果:自中心和前置攝像頭。在自為中心的情況下,他們創(chuàng )建了xR-EgoPose測試集的兩個(gè)子集。第一個(gè)子集包含具有3D和2D標簽的所有可用圖像樣本的50%。


第二個(gè)包含100%的帶有2D標簽的圖像樣本,但只有50%的3D標簽。實(shí)際上,第二子集包含的圖像數量是僅具有2D注釋的圖像數量的兩倍。表10a比較了子集之間的結果??梢钥闯?,最終的3D姿態(tài)估計受益于額外的2D注釋。在Human3.6M數據集上可以看到等效的行為。表10b顯示了當使用來(lái)自COCO和MPII的附加2D注釋時(shí)重建誤差的改善。  

總的來(lái)說(shuō),團隊提出了一種從安裝在頭顯的單眼攝像頭估計3D身體姿勢的解決方案。給定單個(gè)圖像,所述方法完全可微網(wǎng)絡(luò )估計熱圖,并使用它們作為中間表示,使用新的multi-branch自動(dòng)編碼器回歸3D姿態(tài)。

這種新的架構設計是在具有挑戰性的數據集中進(jìn)行精確重建的基礎。與競爭對手的數據集相比,準確率提高了24%以上,實(shí)驗證明可以推廣到更通用的3D人體姿態(tài)估計,即具有最先進(jìn)性能的前置攝像頭任務(wù)。

最后,他們介紹了xR-EgoPose數據集,這是一個(gè)新的大規模照片逼真的合成數據集,對訓練至關(guān)重要。團隊表示,增加額外的攝像頭以覆蓋更多的視場(chǎng),并實(shí)現多視圖傳感是未來(lái)研究的重點(diǎn)。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: Meta

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>