讓機器人感知你的「Here you are」,清華團隊使用百萬(wàn)場(chǎng)景打造通用人機交接
來(lái)自清華大學(xué)交叉信息研究院的研究者提出了「GenH2R」框架,讓機器人學(xué)習通用的基于視覺(jué)的人機交接策略(generalizable vision-based human-to-robot handover policies)。這種可泛化策略使得機器人能更可靠地從人們手中接住幾何形狀多樣、運動(dòng)軌跡復雜的物體,為人機交互提供了新的可能性。
隨著(zhù)具身智能(Embodied AI)時(shí)代的來(lái)臨,我們期待智能體能主動(dòng)與環(huán)境進(jìn)行交互。在這個(gè)過(guò)程中,讓機器人融入人類(lèi)生活環(huán)境、與人類(lèi)進(jìn)行交互(Human Robot Interaction)變得至關(guān)重要。我們需要思考如何理解人類(lèi)的行為和意圖,以最符合人類(lèi)期望的方式滿(mǎn)足其需求,將人類(lèi)放在具身智能的中心(Human-Centered Embodied AI)。其中一個(gè)關(guān)鍵的技能是可泛化的人機交接(Generalizable Human-to-Robot Handover),它使機器人能夠更好地與人類(lèi)合作,完成各種日常通用任務(wù),如烹飪、居室整理和家具組裝等。
大模型的火爆發(fā)展預示著(zhù)海量高質(zhì)量數據+大規模學(xué)習是走向通用智能的一種可能方式,那么能否通過(guò)海量機器人數據與大規模策略模仿獲取通用人機交接技能?然而,若考慮在現實(shí)世界中讓機器人與人類(lèi)進(jìn)行大規模交互學(xué)習是危險且昂貴的,機器很有可能會(huì )傷害到人類(lèi):
而在仿真環(huán)境中(Simulation)進(jìn)行訓練,用人物仿真和動(dòng)態(tài)抓取運動(dòng)規劃來(lái)自動(dòng)化提供海量多樣的機器人學(xué)習數據,然后將其部署到真實(shí)機器人上(Sim-to-Real Transfer),是一種更可靠的基于學(xué)習的方法,可以大大拓展機器人與人協(xié)作交互的能力。
因此,「GenH2R」框架被提出,分別從仿真(Simulation),示例(Demonstration),模仿(Imitation)三個(gè)角度出發(fā),讓機器人第一次基于端到端的方式學(xué)習對任意抓取方式、任意交接軌跡、任意物體幾何的通用交接:1)在「GenH2R-Sim」環(huán)境中提供了百萬(wàn)級別的易于生成的各種復雜仿真交接場(chǎng)景,2)引入一套自動(dòng)化的基于視覺(jué) - 動(dòng)作協(xié)同的專(zhuān)家示例(Expert Demonstrations)生成流程,3)使用基于 4D 信息和預測輔助(點(diǎn)云 + 時(shí)間)的模仿學(xué)習(Imitation Learning)方法。
相比于 SOTA 方法(CVPR2023 Highlight),GenH2R 的方法在各種測試集上平均成功率提升 14%,時(shí)間上縮短 13%,并在真機實(shí)驗中取得更加魯棒的效果。
- 論文地址:https://arxiv.org/abs/2401.00929
- 論文主頁(yè):https://GenH2R.github.io
- 論文視頻:https://youtu.be/BbphK5QlS1Y
方法介紹
A. 仿真環(huán)境(GenH2R-Sim)
為了生成高質(zhì)量、大規模的人手 - 物體數據集,GenH2R-Sim 環(huán)境從抓取姿勢和運動(dòng)軌跡兩方面對場(chǎng)景建模。
在抓取姿勢方面,GenH2R-Sim 從 ShapeNet 中引入了豐富的 3D 物體模型,從中挑選出 3266 個(gè)適合交接的日常物體,使用靈巧抓取的生成方法(DexGraspNet),總共生成了 100 萬(wàn)個(gè)人手抓住物體的場(chǎng)景。在運動(dòng)軌跡方面,GenH2R-Sim 使用若干控制點(diǎn)生成多段光滑的 Bézier 曲線(xiàn),并引入人手和物體的旋轉,模擬出手遞物體的各種復雜運動(dòng)軌跡。
GenH2R-Sim 的 100 萬(wàn)場(chǎng)景中,不僅在運動(dòng)軌跡(1 千 vs 100 萬(wàn))、物體數量(20 vs 3266)兩方面遠超之前最新工作,此外,還引入了接近真實(shí)情境的互動(dòng)信息(如機械臂足夠靠近物體時(shí),人會(huì )配合停止運動(dòng),等待完成交接),而非簡(jiǎn)單的軌跡播放。盡管仿真生成的數據不能完全逼真,但實(shí)驗結果表明,相比小規模的真實(shí)數據,大規模的仿真數據更有助于學(xué)習。
B. 大規模生成利于蒸餾的專(zhuān)家示例
基于大規模的人手和物體運動(dòng)軌跡數據,GenH2R 自動(dòng)化地生成了大量專(zhuān)家示例。GenH2R 尋求的 “專(zhuān)家” 是經(jīng)過(guò)改進(jìn)后的 Motion Planner(如 OMG Planner),這些方法是非學(xué)習、基于控制優(yōu)化的,不依賴(lài)于視覺(jué)的點(diǎn)云,往往需要一些場(chǎng)景狀態(tài)(比如物體的目標抓取位置)。為了確保后續的視覺(jué)策略網(wǎng)絡(luò )能夠蒸餾出有益于學(xué)習的信息,關(guān)鍵在于確保 “專(zhuān)家” 提供的示例具有視覺(jué) - 動(dòng)作相關(guān)性(Vision-action correlation)。規劃時(shí)如果知道最后落點(diǎn),那么機械臂可以忽略視覺(jué)而直接規劃到最終位置 “守株待兔”,這樣可能會(huì )導致機器人的相機無(wú)法看到物體,這種示例對于下游的視覺(jué)策略網(wǎng)絡(luò )并沒(méi)有任何幫助;而如果頻繁地根據物體位置進(jìn)行重新規劃,可能會(huì )導致機械臂動(dòng)作不連續,出現奇怪的形態(tài),無(wú)法完成合理的抓取。
為了生成出利于蒸餾(Distillation-friendly)的專(zhuān)家示例,GenH2R 引入了 Landmark Planning。人手的運動(dòng)軌跡會(huì )按照軌跡光滑程度和距離被分成多段,以 Landmark 作為分割標記。在每一段中,人手軌跡是光滑的,專(zhuān)家方法會(huì )朝著(zhù) Landmark 點(diǎn)進(jìn)行規劃。這種方法可以同時(shí)保證視覺(jué) - 動(dòng)作相關(guān)性和動(dòng)作連續性。
C. 以預測為輔助的 4D 模仿學(xué)習網(wǎng)絡(luò )
基于大規模專(zhuān)家示例,GenH2R 使用模仿學(xué)習的方法,構建 4D 策略網(wǎng)絡(luò ),對觀(guān)察到的時(shí)序點(diǎn)云信息進(jìn)行幾何和運動(dòng)的分解。對于每一幀點(diǎn)云,通過(guò)迭代最近點(diǎn)算法(Iterative Closest Point)計算和上一幀點(diǎn)云之間的位姿變換,以估計出每個(gè)點(diǎn)的流(flow)信息,使得每一幀點(diǎn)云都具有運動(dòng)特征。接著(zhù),使用 PointNet++ 對每一幀點(diǎn)云編碼,最后不僅解碼出最終需要的 6D egocentric 動(dòng)作,還會(huì )額外輸出一個(gè)物體未來(lái)位姿的預測,增強策略網(wǎng)絡(luò )對未來(lái)手和物體運動(dòng)的預測能力。
不同于更加復雜的 4D Backbone(例如 Transformer-based),這種網(wǎng)絡(luò )架構的推理速度很快,更適用于交接物體這種需要低延時(shí)的人機交互場(chǎng)景,同時(shí)它也能有效地利用時(shí)序信息,做到了簡(jiǎn)單性和有效性的平衡。
實(shí)驗
A. 仿真環(huán)境實(shí)驗
GenH2R 和 SOTA 方法進(jìn)行了各種設定下的比較,相比于使用小規模真實(shí)數據訓練的方法,在 GenH2R-Sim 中使用大規模仿真數據進(jìn)行訓練的方法,可以取得顯著(zhù)的優(yōu)勢(在各種測試集上成功率平均提升 14%,時(shí)間上縮短 13%)。
在真實(shí)數據測試集 s0 中,GenH2R 的方法可以成功交接更復雜的物體,并且能夠提前調整姿勢,避免在夾爪靠近物體時(shí)再頻繁進(jìn)行姿勢調整:
在仿真數據測試集 t0(GenH2R-sim 引入)中,GenH2R 的方法可以能夠預測物體的未來(lái)姿勢,以實(shí)現更加合理的接近軌跡:
在真實(shí)數據測試集 t1(GenH2R-sim 從 HOI4D 引入,比之前工作的 s0 測試集增大約 7 倍)中,GenH2R 的方法可以泛化到?jīng)]有見(jiàn)過(guò)的、具有不同幾何形狀的真實(shí)世界物體。
B. 真機實(shí)驗
GenH2R 同時(shí)將學(xué)到的策略部署到現實(shí)世界中的機械臂上,完成 “sim-to-real“的跳躍。
對于更復雜的運動(dòng)軌跡(例如旋轉),GenH2R 的策略展示出更強的適應能力;對于更復雜的幾何,GenH2R 的方法更可以展現出更強的泛化性:
GenH2R 完成了對于各種交接物體的真機測試以及用戶(hù)調研,展示出很強的魯棒性。
了解更多實(shí)驗、方法內容,請參考論文主頁(yè)。
團隊介紹
該論文來(lái)自清華大學(xué) 3DVICI Lab、上海人工智能實(shí)驗室和上海期智研究院,論文的作者為清華大學(xué)學(xué)生汪子凡(共同一作)、陳峻宇(共同一作)、陳梓青和謝鵬威,指導老師是弋力和陳睿。
清華大學(xué)三維視覺(jué)計算與機器智能實(shí)驗室(簡(jiǎn)稱(chēng) 3DVICI Lab),是清華大學(xué)交叉信息研究院下的人工智能實(shí)驗室,由弋力教授組建和指導。3DVICI Lab 瞄準人工智能最前沿的通用三維視覺(jué)與智能機器人交互問(wèn)題,研究方向涵蓋具身感知、交互規劃與生成、人機協(xié)作等,與機器人、虛擬現實(shí)、自動(dòng)駕駛等應用領(lǐng)域密切聯(lián)系。團隊研究目標是使智能體具備理解并與三維世界交互的能力,成果發(fā)表于各大頂級計算機會(huì )議、期刊上。
來(lái)源:機器之心*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。