李飛飛「具身智能」新成果!機器人接入大模型直接聽(tīng)懂人話(huà),0預訓練就能完成復雜指令(1)
李飛飛團隊具身智能最新成果來(lái)了:
大模型接入機器人,把復雜指令轉化成具體行動(dòng)規劃,無(wú)需額外數據和訓練。
從此,人類(lèi)可以很隨意地用自然語(yǔ)言給機器人下達指令,如:
打開(kāi)上面的抽屜,小心花瓶!
大語(yǔ)言模型+視覺(jué)語(yǔ)言模型就能從3D空間中分析出目標和需要繞過(guò)的障礙,幫助機器人做行動(dòng)規劃。
然后重點(diǎn)來(lái)了, 真實(shí)世界中的機器人在未經(jīng)“培訓”的情況下,就能直接執行這個(gè)任務(wù)。
新方法實(shí)現了零樣本的日常操作任務(wù)軌跡合成,也就是機器人從沒(méi)見(jiàn)過(guò)的任務(wù)也能一次執行,連給他做個(gè)示范都不需要。
可操作的物體也是開(kāi)放的,不用事先劃定范圍,開(kāi)瓶子、按開(kāi)關(guān)、拔充電線(xiàn)都能完成。
目前項目主頁(yè)和論文都已上線(xiàn),代碼即將推出,并且已經(jīng)引起學(xué)術(shù)界廣泛興趣。
一位前微軟研究員評價(jià)到:這項研究走在了人工智能系統最重要和最復雜的前沿。
具體到機器人研究界也有同行表示:給運動(dòng)規劃領(lǐng)域開(kāi)辟了新世界。
還有本來(lái)沒(méi)看到AI危險性的人,因為這項AI結合機器人的研究而改變看法。
李飛飛團隊將該系統命名為VoxPoser,如下圖所示,它的原理非常簡(jiǎn)單。
首先,給定環(huán)境信息(用相機采集RGB-D圖像)和我們要執行的自然語(yǔ)言指令。
接著(zhù),LLM(大語(yǔ)言模型)根據這些內容編寫(xiě)代碼,所生成代碼與VLM(視覺(jué)語(yǔ)言模型)進(jìn)行交互,指導系統生成相應的操作指示地圖,即3D Value Map。
所謂3D Value Map,它是Affordance Map和Constraint Map的總稱(chēng),既標記了“在哪里行動(dòng)”,也標記了“如何行動(dòng)”。
如此一來(lái),再搬出動(dòng)作規劃器,將生成的3D地圖作為其目標函數,便能夠合成最終要執行的操作軌跡了。
而從這個(gè)過(guò)程我們可以看到,相比傳統方法需要進(jìn)行額外的預訓練,這個(gè)方法用大模型指導機器人如何與環(huán)境進(jìn)行交互,所以直接解決了機器人訓練數據稀缺的問(wèn)題。
更進(jìn)一步,正是由于這個(gè)特點(diǎn),它也實(shí)現了零樣本能力,只要掌握了以上基本流程,就能hold任何給定任務(wù)。
在具體實(shí)現中,作者將VoxPoser的思路轉化為一個(gè)優(yōu)化問(wèn)題,即下面這樣一個(gè)復雜的公式:
它考慮到了人類(lèi)下達的指令可能范圍很大,并且需要上下文理解,于是將指令拆解成很多子任務(wù),比如開(kāi)頭第一個(gè)示例就由“抓住抽屜把手”和“拉開(kāi)抽屜”組成。
VoxPoser要實(shí)現的就是優(yōu)化每一個(gè)子任務(wù),獲得一系列機器人軌跡,最終最小化總的工作量和工作時(shí)間。
而在用LLM和VLM將語(yǔ)言指令映射為3D地圖的過(guò)程中,系統考慮到語(yǔ)言可以傳達豐富的語(yǔ)義空間,便利用“感興趣的實(shí)體(entity of interest)”來(lái)引導機器人進(jìn)行操作,也就是通過(guò)3DValue Map中標記的值來(lái)反應哪個(gè)物體是對它具有“吸引力”的,那些物體是具有“排斥性”。
還是以開(kāi)頭的例子舉
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。