<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 大模型加持的機器人有多強,MIT CSAIL&IAIFI用自然語(yǔ)言指導機器人抓取物體

大模型加持的機器人有多強,MIT CSAIL&IAIFI用自然語(yǔ)言指導機器人抓取物體

發(fā)布人:機器之心 時(shí)間:2023-08-21 來(lái)源:工程師 發(fā)布文章
來(lái)自 MIT CSAIL 和 IAIFI 的研究者將準確的 3D 幾何圖形與來(lái)自 2D 基礎模型的豐富語(yǔ)義結合起來(lái),讓機器人能夠利用 2D 基礎模型中豐富的視覺(jué)和語(yǔ)言先驗,完成語(yǔ)言指導的操作。

最近,具身智能成為人工智能領(lǐng)域關(guān)注的一個(gè)焦點(diǎn)。從斯坦福大學(xué)的 VIMA 機器人智能體,到谷歌 DeepMind 推出首個(gè)控制機器人的視覺(jué) - 語(yǔ)言 - 動(dòng)作(VLA)的模型 RT-2,大模型加持的機器人研究備受關(guān)注。

當前,自監督和語(yǔ)言監督的圖像模型已經(jīng)包含豐富的世界知識,這對于泛化來(lái)說(shuō)非常重要,但圖像特征是二維的。我們知道,機器人任務(wù)通常需要對現實(shí)世界中三維物體的幾何形狀有所了解。

基于此,來(lái)自 MIT CSAIL 和 IAIFI 的研究者利用蒸餾特征場(chǎng)(Distilled Feature Field,DFF),將準確的 3D 幾何圖形與來(lái)自 2D 基礎模型的豐富語(yǔ)義結合起來(lái),讓機器人能夠利用 2D 基礎模型中豐富的視覺(jué)和語(yǔ)言先驗,完成語(yǔ)言指導的操作。


論文地址:https://arxiv.org/abs/2308.07931


具體來(lái)說(shuō),該研究提出了一種用于 6-DOF 抓取和放置的小樣本學(xué)習方法,并利用強大的空間和語(yǔ)義先驗泛化到未見(jiàn)過(guò)物體上。使用從視覺(jué) - 語(yǔ)言模型 CLIP 中提取的特征,該研究提出了一種通過(guò)開(kāi)放性的自然語(yǔ)言指令對新物體進(jìn)行操作,并展示了這種方法泛化到未見(jiàn)過(guò)的表達和新型物體的能力。

方法介紹


該研究分析了少樣本和語(yǔ)言指導的操作,其中需要在沒(méi)見(jiàn)過(guò)類(lèi)似物體的情況下,給定抓取演示或文本描述,機器人就能拾取新物體。為了實(shí)現這一目標,該研究圍繞預訓練圖像嵌入構建了系統,這也是從互聯(lián)網(wǎng)規模的數據集中學(xué)習常識先驗的可靠方法。


下圖 1 描述了該研究設計的系統:機器人首先使用安裝在自拍桿上的 RGB 相機拍攝一系列照片來(lái)掃描桌面場(chǎng)景,這些照片用于構建桌面的神經(jīng)輻射場(chǎng) (NeRF)。最重要的是,該神經(jīng)輻射場(chǎng)經(jīng)過(guò)訓練不僅可以渲染 RGB 顏色,還可以渲染來(lái)自預訓練視覺(jué)基礎模型的圖像特征。這會(huì )產(chǎn)生一種場(chǎng)景表征,稱(chēng)為蒸餾特征場(chǎng)(DFF),它將 2D 特征圖的知識嵌入到 3D 體積中。然后,機器人參考演示和語(yǔ)言指令來(lái)抓取用戶(hù)指定的物體。


圖片


該研究的一大亮點(diǎn)是從 CLIP 模型中提取密集的二維特征,來(lái)給蒸餾特征場(chǎng)提供監督。此前,OpenAI 的 CLIP 模型僅提供圖片尺度的全局特征,而 3D 神經(jīng)場(chǎng)的生成需要密集的 2D 描述符。


 為了解決這個(gè)問(wèn)題,研究團隊使用 MaskCLIP 對 CLIP 的視覺(jué)模型進(jìn)行重新參數化,提取 patch 級密集特征。此方法不需要重新訓練,可以保證其描述符與語(yǔ)言模型的對齊。


具身智能 (embodied intelligence) 囊括機器人,自動(dòng)駕駛汽車(chē)等和物理世界有相互作用的人工智能體。這類(lèi)智能體需要對物理世界同時(shí)進(jìn)行幾何空間和語(yǔ)義的理解來(lái)進(jìn)行決策。


為了實(shí)現這樣的表征能力,研究團隊將視覺(jué)基礎模型和視覺(jué) - 語(yǔ)言基礎模型中經(jīng)過(guò)預訓練的二維視覺(jué)表征通過(guò)可微分的三維渲染,構建為 3D 特征場(chǎng)。團隊將這個(gè)方法運用在 6-DOF 機器人抓取任務(wù)上,這種方法叫作機器人操作特征場(chǎng)(Feature Fields for Robotic Manipulation,F3RM)的方法需要解決三個(gè)獨立的問(wèn)題:


  • 首先,如何以合理的速度自動(dòng)生成場(chǎng)景的特征場(chǎng);

  • 其次,如何表征和推斷 6-DOF 抓取和放置的姿勢;

  • 最后,如何結合語(yǔ)言指導來(lái)實(shí)現開(kāi)放文本命令。


圖片


自然語(yǔ)言提供了一種將機器人操作擴展到開(kāi)放物體集的方法,為目標物體照片不準確或不可用的情況提供了一種替代方案。在測試時(shí),機器人接收來(lái)自用戶(hù)的開(kāi)放文本語(yǔ)言查詢(xún),其中指定要操作的物體。如下圖 3 所示,語(yǔ)言指導的姿勢推斷過(guò)程包括三個(gè)步驟:


  • 檢索相關(guān)演示;

  • 初始化粗略抓??;

  • 語(yǔ)言指導的抓取姿勢優(yōu)化。


圖片


實(shí)驗結果


我們先來(lái)看一些機器人抓取的實(shí)驗效果。例如,使用 F3RM 方法,機器人可以輕松抓取一個(gè)螺絲刀工具:


圖片


抓取小熊玩偶:


圖片


抓取透明杯子和藍色杯子:


圖片


圖片


把物體掛放在不同材質(zhì)的架子上:


圖片


圖片


F3RM 還可以識別并抓取一些不常見(jiàn)的物體,比如化學(xué)領(lǐng)域會(huì )用到的量勺、量杯:


圖片


圖片


為了表明機器人能夠利用 2D 基礎模型中豐富的視覺(jué)和語(yǔ)言先驗,并且可以泛化到未見(jiàn)過(guò)的新型物體上,該研究還進(jìn)行了一系列抓取和放置任務(wù)的實(shí)驗,我們來(lái)看下實(shí)驗結果。


從示例中學(xué)會(huì )抓握


如下圖 4 所示,該研究進(jìn)行了 6-DOF 抓取和放置任務(wù),并為每個(gè)任務(wù)提供兩個(gè)演示。為了標記演示,該研究將 NeRF 重建的點(diǎn)云加載到虛擬現實(shí)中,并使用手動(dòng)控制器將夾子移動(dòng)到所需的姿勢(圖 2 (a))。


圖片



機器人在抓取和放置任務(wù)上的成功率如下表 1 所示:


圖片


下圖 5 展示了該研究所提方法在未見(jiàn)過(guò)的新物體上的泛化情況:


圖片



此外,語(yǔ)義特征和詳細 3D 幾何圖形之間的融合提供了一種對密集的堆疊進(jìn)行建模的方法。例如,在下圖 6 (b) 中,毛毛蟲(chóng)玩具被埋在其他玩具下面。圖 6 (c) 顯示機器人抓住了毛毛蟲(chóng)玩具,并將其從玩具堆的底部拾起。


圖片



語(yǔ)言指導的機器人抓取


該研究設置了 13 個(gè)桌面場(chǎng)景來(lái)研究使用開(kāi)放文本語(yǔ)言和 CLIP 特征場(chǎng)來(lái)指定要操作物體的可行性。


在下圖 7 中,機器人在語(yǔ)言指導下成功執行了 5 個(gè)抓握。整個(gè)場(chǎng)景包含 11 個(gè)物體,其中 4 個(gè)來(lái)自 YCB 物體數據集。


圖片


語(yǔ)言指導的操作成功率如下表 2 所示:


圖片


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>