不只有結構光:機器眼中的立體世界 還在發(fā)生若干變化
AR/VR中的位姿估計技術(shù)
本文引用地址:http://dyxdggzs.com/article/201812/395780.htm為什么我們在玩AR體驗的時(shí)候,經(jīng)常會(huì )覺(jué)得手機里的東西放在攝像頭視野中并不真實(shí),像是漂浮在地板上一樣。
這就是因為位姿估計算法不夠精準,無(wú)法正確定位物體的空間關(guān)系。在機器視覺(jué)技術(shù)的進(jìn)化下,今天很多位姿估計技術(shù)正在同步進(jìn)化。比如基于動(dòng)態(tài)特征提取算法,達成的動(dòng)作定位今天已經(jīng)比較成熟。
這東西聽(tīng)起來(lái)挺玄乎,到底是干啥用的呢?它的最大應用場(chǎng)景,就是在VR/AR正確處理場(chǎng)景中動(dòng)態(tài)物體的空間關(guān)系和運動(dòng)軌跡。比如你在VR里玩踢球游戲,球應該在什么位置挨踢,以什么軌跡撞墻,都有賴(lài)于位姿估計算法來(lái)校準。
在機器視覺(jué)算法的幫助下,更精細的位姿估計正在到來(lái),而這也加速了成熟MR體驗的到來(lái)。另一方面,在VR設備或者手機當中,基于攝像頭與傳感器協(xié)同運作來(lái)完成位姿估計,也是沉浸技術(shù)中即將發(fā)生的一個(gè)亮點(diǎn)。

通過(guò)散亂數據達成三維建模
3D機器視覺(jué)的最重要任何,肯定是基于數據來(lái)實(shí)現3D建模。這個(gè)應用在產(chǎn)業(yè)端十分重要,地理信息系統、勘探、工程,以及無(wú)人駕駛,都需要大量的3D建模工作來(lái)參與。
而消費者級的3D建模今天也在到來(lái),我們已經(jīng)可以看到在手機端通過(guò)3D結構光來(lái)完成數據收集,從而達成3D建模的玩法。
跟3D感知一樣,3D建模也是利用攝像頭或者傳感器來(lái)收集數據,最終通過(guò)不同的解決方案完成建模。
然而這個(gè)領(lǐng)域還是有很多問(wèn)題等待解決。比如說(shuō),今天我們進(jìn)行3D建模時(shí),還需要非常痛苦的一點(diǎn)點(diǎn)收集數據,必須保證數據的對齊和精準排列。否則出來(lái)的3D模型就是雜亂無(wú)章的。這顯然讓大眾完3D建模的熱情減退,并且給很多工程級項目增添了非常多難度。
AI的到來(lái),正在幫助這種情況有所改變。在深度學(xué)習算法的幫助下,機器視覺(jué)領(lǐng)域正在研究如何在散亂、不規則、巨大數量的數據中完成3D建模。這需要對抗生成以及先驗表示等非常多的方案,但帶來(lái)的效果非常值得期待。

比如說(shuō)今天已經(jīng)有3D建模方案,在深度學(xué)習的幫助下實(shí)現對密林的重建。然而其用來(lái)進(jìn)行點(diǎn)云建模的圖像數據中,有很多被樹(shù)葉遮擋的部分。這時(shí)候就可以用AI來(lái)增強3D建模的先驗知識,主動(dòng)“腦補”出遮擋物背后的真實(shí)樣子。
不僅是修復遮擋模型和瑕疵數據,機器視覺(jué)技術(shù)與3D建模的融合,還可以讓很多無(wú)人設備具有更雪亮的“眼睛”。比如無(wú)人駕駛汽車(chē),或許可以基于“大腦”中的3D建模算法,來(lái)腦補智能攝像頭尚未發(fā)現的環(huán)境。這點(diǎn)在復雜立交橋和停車(chē)場(chǎng)中格外有用。
在消費者端,3D建模與機器視覺(jué)的結合也將帶來(lái)新的想象力,比如消費者可以根據照片來(lái)重建精準的3D模型,或者傻瓜式完成建模要用的數據收集。讓不那么專(zhuān)業(yè)的人也能建設出專(zhuān)業(yè)的3D模型,這個(gè)改變背后的想象力驚人。
更好的深度傳感器解決方案
還有一個(gè)機器視覺(jué)技術(shù)和3D的交匯,主要發(fā)生在無(wú)人機領(lǐng)域。
無(wú)人機今天進(jìn)行測繪和航拍時(shí),必須附帶對空間的理解能力,否則拍照不準事小,撞了南墻事大。而這個(gè)能力主要來(lái)自于攝像頭和傳感器進(jìn)行空間閱讀。
隨著(zhù)消費級無(wú)人機的不斷升級,人們對無(wú)人機拍攝效果要求也不斷升高。無(wú)人機必須不斷在更遠的距離、更極端的天氣、更復雜的運動(dòng)中拍攝畫(huà)面。然而傳統的傳感系統解決方案已經(jīng)快要跟不上用戶(hù)的期許。
今天的消費級無(wú)人機,一般采取兩種感知解決方案,一種是雙目視覺(jué)技術(shù),比如大疆的某些產(chǎn)品;一種是結構光傳感器,比如微軟的Kinect。而這兩種主流方案都是有一定局限的,比如感知范圍都有限,難以完成遠距離作業(yè)。再比如雙目視覺(jué)技術(shù)在黑夜中會(huì )失靈,所以無(wú)人機夜拍一直是個(gè)大坑,然而結構光技術(shù)應對不來(lái)強光,一到中午無(wú)人機就石樂(lè )志也是很心塞的。
更好的解決方案,在于將傳感器與智能攝像頭結合起來(lái),達成可以適應不同天候與天氣,并且可以長(cháng)距離感知的新型傳感系統解決方案。
今天,用機器視覺(jué)技術(shù)中的很多算法,協(xié)調不同的傳感設備工作,讓無(wú)人機變成“多眼無(wú)人機”,正在成為流行的解決方案。機器視覺(jué)算法大量加入無(wú)人機傳感器,還可能帶來(lái)軌跡拍攝能力提升,讓無(wú)人機獲得拍攝整體環(huán)境,或者精準捕捉動(dòng)態(tài)物體,比如說(shuō)運動(dòng)中的動(dòng)物和車(chē)輛的能力。
以上幾個(gè)技術(shù)趨勢,都可能成為機器視覺(jué)和圖形學(xué)應用的下一步熱點(diǎn)。這個(gè)領(lǐng)域看似偏門(mén),事實(shí)上卻能影響今天科技市場(chǎng)中的風(fēng)吹草動(dòng)。
讓機器看到立體世界的游戲才剛剛開(kāi)始,機器與人類(lèi)在某一天可以用同樣的視角相互凝視,或許才是這個(gè)故事的終點(diǎn)。
評論