CMU華人18萬(wàn)打造高能機器人,完爆斯坦福炒蝦機器人!全自主操作,1小時(shí)學(xué)會(huì )開(kāi)12種門(mén)

比斯坦福炒蝦機器人還厲害的機器人來(lái)了!
最近,CMU的研究者只花費2.5萬(wàn)美元,就打造出一個(gè)在開(kāi)放世界中可以自適應移動(dòng)操作鉸接對象的機器人。

厲害之處就在于,它是完全自主完成操作的。
看,這個(gè)機器人能自己打開(kāi)各式各樣的門(mén)。
無(wú)論是需要按一下把手才能打開(kāi)的門(mén)。
需要推開(kāi)的門(mén)。
透明的彈簧門(mén)。
甚至是昏暗環(huán)境中的門(mén)。
它還能自己打開(kāi)櫥柜。
打開(kāi)抽屜。
自己打開(kāi)冰箱。
甚至,它的技能推廣到訓練以外的場(chǎng)景。
結果發(fā)現,一個(gè)小時(shí)內,機器人學(xué)會(huì )打開(kāi)20個(gè)從未見(jiàn)過(guò)的門(mén),成功率從行為克隆預訓練的50%,飆升到在線(xiàn)自適應的95%。
即使眼前是一個(gè)它從未見(jiàn)過(guò)的門(mén),這個(gè)優(yōu)秀的小機器人也順利打開(kāi)了!
英偉達高級科學(xué)家Jim Fan表示:
斯坦福的ALOHA雖然令人印象深刻,但很多動(dòng)作都需要人類(lèi)協(xié)同控制,但這個(gè)機器人,則是完全自主完成的一系列操作。
它背后的核心思想,就是在測試時(shí)進(jìn)行RL,使用CLIP(或任何視覺(jué)語(yǔ)言模型)作為學(xué)習的獎勵函數。
這樣,就像ChatGPT用RLHF進(jìn)行預訓練一樣,機器人可以對人類(lèi)收集的軌跡進(jìn)行預訓練(通過(guò)遠程控制),然后通過(guò)新場(chǎng)景進(jìn)行RLHF,這樣就掌握了訓練以外的技能。

這項工作一經(jīng)發(fā)布,立刻獲得了同行們的肯定。
「恭喜!這是將機械臂帶出實(shí)驗室的好裝置?!?/span>

「太令人激動(dòng)了,讓機器人在線(xiàn)學(xué)習技能前景巨大!」

「如此便宜的定制硬件,會(huì )讓移動(dòng)操作變得瘋狂?!?/span>

「永遠不要惹一個(gè)機器人,它已經(jīng)學(xué)會(huì )開(kāi)門(mén)了?!?/span>

讓我們具體看看,這個(gè)機器人是如何完成未見(jiàn)過(guò)的開(kāi)門(mén)任務(wù)。
機器人自適應學(xué)習,性能暴漲至90%
當前多數機器人移動(dòng)操作,僅限于拾取-移動(dòng)-放置的任務(wù)。
由于多種原因,在「開(kāi)放世界」中開(kāi)發(fā)和部署,能夠處理看不見(jiàn)的物體機器人系統具有極大的挑戰性。
針對學(xué)習「通用移動(dòng)操作」的挑戰,研究人員將研究重點(diǎn)放在一類(lèi)有限的問(wèn)題——涉及鉸接式物體的操作,比如開(kāi)放世界中的門(mén)、抽屜、冰箱或櫥柜。
別看,開(kāi)門(mén)、打開(kāi)抽屜、冰箱這種日常生活中的操作對于每個(gè)人來(lái)說(shuō),甚至小孩子來(lái)說(shuō)輕而易舉,卻是機器人的一大挑戰。
對此,CMU研究人員提出了「全?!沟姆椒▉?lái)解決以上問(wèn)題。

為了有效地操縱開(kāi)放世界中的物體,研究中采用了「自適應學(xué)習」的框架,機器人不斷從交互中收集在線(xiàn)樣本進(jìn)行學(xué)習。
這樣一來(lái),即使機器人遇到了,不同鉸接模式或不同物理參數(因重量或摩擦力不同)的新門(mén),也可以通過(guò)交互學(xué)習實(shí)現自適應。

為了實(shí)現高效學(xué)習,研究人員使用一種結構化的分層動(dòng)作空間。它使用固定的高級動(dòng)作策略和可學(xué)習的低層控制參數。
使用這種動(dòng)作空間,研究人員通過(guò)各種遠程操作演示的數據集,初始化了策略(BC)。這為探索提供了一個(gè)強有力的先驗,并降低了執行不安全動(dòng)作的可能性。
成本僅2.5萬(wàn)美金
此前,斯坦福團隊在打造Mobile ALOHA的所有成本用了3萬(wàn)美元。
而這次,CMU團隊能夠以更便宜的成本——2.5萬(wàn)美元(約18萬(wàn)元),打造了一臺在通用世界使用的機器人。
如下圖3所示,展示了機器人硬件系統的不同組件。
研究人員選用了AgileX的Ranger Mini 2底座,因其具有穩定性,全向速度控制,和高負載稱(chēng)為最佳選擇。
為了使這樣的系統有效,能夠有效學(xué)習至關(guān)重要,因為收集現實(shí)世界樣本的成本很高。
使用的移動(dòng)機械手臂如圖所示。

手臂采用了xArm進(jìn)行操作,有效負載為5公斤,成本較低,可供研究實(shí)驗室廣泛使用。
CMU機器人系統使用了Jetson計算機來(lái)支持傳感器、底座、手臂,以及托管LLM的服務(wù)器之間的實(shí)時(shí)通信。

對于實(shí)驗數據的收集,是通過(guò)安裝在框架上的D435 IntelRealsense攝像頭來(lái)收集RGBD圖像,并使用T265 Intel Realsense攝像頭來(lái)提供視覺(jué)里程計,這對于在執行RL試驗時(shí)重置機器人至關(guān)重要。
另外,機器人抓手還配備了3D打印抓手和防滑帶,以確保安全穩定的抓握。
研究人員還將創(chuàng )建的模塊化平臺的關(guān)鍵方面,與其他移動(dòng)操縱平臺進(jìn)行比較。
看得出,CMU的機器人系統不論是在手臂負載力,還是移動(dòng)自由度、全向驅動(dòng)的底座、成本等方面具有明顯的優(yōu)勢。


原始實(shí)現
參數化原始動(dòng)作空間的實(shí)現細節如下。
抓取為了實(shí)現這個(gè)動(dòng)作,對于從實(shí)感相機獲得的場(chǎng)景RGBD圖像,研究者使用現成的視覺(jué)模型,僅僅給出文本提示,就能獲取門(mén)和把手的掩碼。
此外,由于門(mén)是一個(gè)平面,因此可以使用相應的掩碼和深度圖像,來(lái)估計門(mén)的表面法線(xiàn)。
這就可以將底座移動(dòng)到靠近門(mén)的地方,使其垂直,并設置抓握把手的方向角度。
使用相機校準,將把手的2D掩碼中心投影到3D坐標,這就是標記的抓取位置。
原始抓取的低級控制參數,會(huì )指示要抓取位置的偏移量。
這是十分有益的,因為根據把手的類(lèi)型,機器人可能需要到達稍微不同的位置,通過(guò)低級連續值參數,就可以來(lái)學(xué)習這一點(diǎn)。
約束移動(dòng)操縱
對于機器人手臂末端執行器和機器人底座,研究者使用了速度控制。
通過(guò)在SE2平面中的6dof臂和3dof運動(dòng),他們創(chuàng )建了一個(gè)9維向量。
其中前6個(gè)維度對應手臂的控制,后三個(gè)維度對應底座。
研究者使用原始數據,對該空間施加了如下約束——
在控制機器人時(shí),策略會(huì )輸出與要執行的原始數據相對應的索引,以及運動(dòng)的相應低級參數。
低級控制命令的值從-1到1連續,并且會(huì )在一段固定的持續時(shí)間內執行。
參數的符號決定了速度控制的方向,順時(shí)針或逆時(shí)針用于解鎖和旋轉,向前或向后用于打開(kāi)物體。
預訓練數據集
在這個(gè)項目中考慮的鉸接物體,由三個(gè)剛性部分組成:底座部分、框架部分和手柄部分。
其中包括門(mén)、櫥柜、抽屜和冰箱等物體。
它們的底座和框架通過(guò)旋轉接頭(如在櫥柜中)或棱柱接頭(如在抽屜中)連接??蚣芡ㄟ^(guò)旋轉接頭或固定接頭連接到手柄。
因此,研究者確定了鉸接物體的四種主要類(lèi)型,分類(lèi)取決于與手柄的類(lèi)型和關(guān)節機構。
手柄關(guān)節通常包括杠桿(A型)和旋鈕(B型)。
對于手柄沒(méi)有鉸接的情況,主體框架可以使用旋轉接頭(C型)繞鉸鏈旋轉,或者沿著(zhù)柱接頭(例如抽屜)前后滑動(dòng)(D型)。
雖然并不詳盡,但可以說(shuō)這四種分類(lèi)基本涵蓋了機器人系統可能遇到的各種日常鉸接物體。

然而,總還有機器人看不到的新型鉸接物體,為了提供操作這些新型鉸接物體的泛化優(yōu)勢,研究者首先收集了離線(xiàn)演示數據集。
在BC訓練數據集中,包含了每個(gè)類(lèi)別的3個(gè)對象,研究者為每個(gè)對象收集10個(gè)演示,總共生成120個(gè)軌跡。
此外,研究者還為每個(gè)類(lèi)別保留了2個(gè)測試對象,用于泛化實(shí)驗。
訓練和測試對象在視覺(jué)外觀(guān)(例如紋理、顏色)、物理動(dòng)力學(xué)(例如彈簧加載)和驅動(dòng)(例如手柄關(guān)節可能是順時(shí)針或逆時(shí)針)方面存在顯著(zhù)差異。
在圖4中,包含了訓練和測試集中使用的所有對象的可視化,以及它們來(lái)自集合的哪個(gè)部分,如圖5所示。
自主安全的在線(xiàn)自適應
在這項工作中,研究者們面臨的最大挑戰就在于,如何使用不屬于BC訓練集的新對象進(jìn)行操作?
為了解決這個(gè)問(wèn)題,他們開(kāi)發(fā)了一個(gè)能夠完全自主強化學(xué)習(RL)在線(xiàn)適應的系統。
安全意識探索確保機器人所采取的探索動(dòng)作對其硬件來(lái)說(shuō)是安全的,這一點(diǎn)至關(guān)重要,特別是它是在關(guān)節約束下與物體交互的。
理想情況下,機器人應該可以解決動(dòng)態(tài)任務(wù),比如使用不同力量控制開(kāi)門(mén)。
然而,研究者使用的xarm-6這種低成本手臂,不支持精確的力感應。

因此,為了部署系統,研究者使用了基于在線(xiàn)采樣期間讀取聯(lián)合電流的安全機制。
如果機器人采樣到導致關(guān)節電流達到閾值的動(dòng)作,該事件就會(huì )終止,并重置機器人,以防止手臂可能會(huì )損害到自身,并且會(huì )提供負面獎勵,來(lái)抑制此類(lèi)行為。
獎勵規范在實(shí)驗中,人類(lèi)操作員會(huì )給機器人提供獎勵。
如果機器人成功開(kāi)門(mén),則獎勵+1,如果失敗則獎勵0,如果存在安全違規則獎勵-1。
這種獎勵機制是可行的,因為系統只需要很少的樣本來(lái)學(xué)習。
然而,對于自主學(xué)習,研究者希望消除依賴(lài)人類(lèi)出現在循環(huán)中的瓶頸。
在這種情況下,他們研究了使用大型視覺(jué)語(yǔ)言模型作為獎勵來(lái)源的辦法。
具體來(lái)說(shuō),他們使用CLIP來(lái)計算兩個(gè)文本提示與機器人執行后觀(guān)察到的圖像之間的相似度得分。
研究者使用的兩個(gè)提示是「門(mén)已關(guān)閉」和「門(mén)已打開(kāi)」,他們會(huì )計算最終觀(guān)察到的圖像和每個(gè)提示的相似度得分。
如果圖像更接近指示門(mén)打開(kāi)的提示,則分配獎勵+1,否則分配獎勵0。如果觸發(fā)安全保護,獎勵為-1。
在這個(gè)過(guò)程中,機器人會(huì )采用視覺(jué)里程計,利用安裝在其底座上的T265跟蹤攝像頭,使其能夠導航回初始位置。
每次行動(dòng)結束時(shí),機器人會(huì )放開(kāi)抓手,并移回原來(lái)的SE2基地位置,并拍攝If的圖像以用于計算獎勵。
然后,研究者對SE2基地位置進(jìn)行隨機擾動(dòng),以便策略變得更加穩健。
此外,如果獎勵為1,門(mén)被打開(kāi)時(shí),機器人就會(huì )有一個(gè)腳本例程,來(lái)把門(mén)關(guān)上。
實(shí)驗結果
研究人員在CMU校園內四棟不同建筑中(12個(gè)訓練對象和8個(gè)測試對象),對全新架構加持的機器人系統進(jìn)行了廣泛的研究。
具體回答了以下幾個(gè)問(wèn)題:
1)系統能否通過(guò)跨不同對象類(lèi)別的在線(xiàn)自適應,來(lái)提高未見(jiàn)過(guò)對象的性能?
2)這與僅在提供的演示中,使用模仿學(xué)習相比如何?
3)可以使用現成的視覺(jué)語(yǔ)言模型自動(dòng)提供獎勵嗎?
4)硬件設計與其他平臺相比如何?(硬件部分已進(jìn)行了比較)
在線(xiàn)自適應a. 不同物體類(lèi)別評估
研究人員在4個(gè)類(lèi)別的固定銜接物體上,對最新的方法進(jìn)行了評估。
如下圖6所示,呈現了從行為克隆初始策略開(kāi)始,利用在線(xiàn)交互進(jìn)行5次迭代微調的持續適應性能。
每次改進(jìn)迭代包括5次策略rollout,之后使用等式5中的損失對模型進(jìn)行更新。

可以看到,最新方法將所有對象的平均成功率從50%提高到95%。因此,通過(guò)在線(xiàn)交互樣本不斷學(xué)習能夠克服初始行為克隆策略的有限泛化能力。
自適應學(xué)習過(guò)程能夠從獲得高獎勵的軌跡中學(xué)習,然后改變其行為,更頻繁地獲得更高的獎勵。
在BC策略性能尚可的情況下,比如平均成功率約為70%的C類(lèi)和D類(lèi)對象,RL能夠將策略完善到100%的性能。
此外,即使初始策略幾乎無(wú)法執行任務(wù),強化學(xué)習也能夠學(xué)習如何操作對象。這從A類(lèi)實(shí)驗中可以看出,模仿學(xué)習策略的成功率非常低,只有10%,完全無(wú)法打開(kāi)兩扇門(mén)中的一扇。
通過(guò)不斷的練習,RL的平均成功率可以達到90%。
這表明,RL可以從模仿數據集中探索出可能不在分布范圍內的動(dòng)作,并從中學(xué)習,讓機器人學(xué)會(huì )如何操作未見(jiàn)過(guò)的新穎的鉸接物體。
b. Action-replay基線(xiàn)
還有另一種非常簡(jiǎn)單的方法,可以利用演示數據集在新對象上執行任務(wù)。
研究團隊針對2個(gè)特別難以進(jìn)行行為克隆的對象(A類(lèi)和B類(lèi)各一個(gè)(按壓杠桿和旋鈕手柄)運行了這一基線(xiàn)。
這里,采取了開(kāi)環(huán)和閉環(huán)兩種方式對這一基線(xiàn)進(jìn)行評估。
在前一種情況下,只使用第一張觀(guān)察到的圖像進(jìn)行比較,并執行整個(gè)檢索到的動(dòng)作序列;而在后一種情況下,每一步執行后都會(huì )搜索最近的鄰居,并執行相應的動(dòng)作。
從表3中可以看出,這種方法非常無(wú)效,進(jìn)一步凸顯了實(shí)驗中訓練對象和測試對象之間的分布差距。

c. 通過(guò)VLM自主獎勵
CMU團隊還研究是否可以通過(guò)自動(dòng)程序來(lái)提供獎勵,從而取代人工操作。
正如Action-replay基線(xiàn)一樣,研究人員在兩個(gè)測試門(mén)上對此進(jìn)行評估,每個(gè)門(mén)都從把手和旋鈕類(lèi)別進(jìn)行評估。
從表2中,使用VLM獎勵的在線(xiàn)自適應性能與使用人類(lèi)標注的地面實(shí)況獎勵相近,平均為80%,而使用人類(lèi)標注的獎勵則為90%。

另外,研究人員還在圖7中報告了每次訓練迭代后的性能。學(xué)習循環(huán)中不再需要人類(lèi)操作員,這為自主訓練和改進(jìn)提供了可能性。

為了成功操作各種門(mén),機器人需要足夠堅固才能打開(kāi)并穿過(guò)它們。
研究人員根據經(jīng)驗與另一種流行的移動(dòng)操縱系統進(jìn)行比較,即Stretch RE1(Hello Robot)。
他們測試機器人由人類(lèi)專(zhuān)家遠程操作,以打開(kāi)不同類(lèi)別的兩扇門(mén)的能力,特別是杠桿門(mén)和旋鈕門(mén)。每個(gè)物體都進(jìn)行了5次試驗。
如表IV所示,這些試驗的結果揭示了Stretch RE1的一個(gè)重大局限性:即使由專(zhuān)家操作,其有效負載能力也不足以打開(kāi)真正的門(mén),而CMU提出的AI系統在所有試驗中都取得了成功。

總而言之,CMU團隊在這篇文章中提出了一個(gè)全棧系統,用于在開(kāi)放世界中進(jìn)行進(jìn)行自適應學(xué)習,以操作各種鉸接式物體,例如門(mén)、冰箱、櫥柜和抽屜。
最新AI系統通過(guò)使用高度結構化的動(dòng)作空間,能夠從很少的在線(xiàn)樣本中學(xué)習。通過(guò)一些訓練對象的演示數據集進(jìn)一步構建探索空間。
CMU提出的方法能夠將來(lái)自4個(gè)不同對象類(lèi)別中,8個(gè)不可見(jiàn)對象的性能提高約50%-95%。
值得一提的是,研究還發(fā)現這一系統還可以在無(wú)需人工干預的情況下通過(guò)VLM的獎勵進(jìn)行學(xué)習。
作者介紹
Haoyu Xiong
Haoyu Xiong是CMU計算機科學(xué)學(xué)院機器人研究所的研究生研究員,專(zhuān)注于人工智能和機器人技術(shù)。他的導師是Deepak Pathak。
Russell Mendonca
Russell Mendonca是CMU大學(xué)機器人研究所的三年級博士生,導師是Deepak Pathak。他本人對機器學(xué)習、機器人學(xué)和計算機視覺(jué)中的問(wèn)題非常感興趣。
之前,他曾畢業(yè)于加州大學(xué)伯克利分校電氣工程和計算機科學(xué)專(zhuān)業(yè),并在伯克利人工智能實(shí)驗室(BAIR)與Sergey Levine教授一起研究強化學(xué)習。
Kenneth Shaw
Kenneth Shaw是卡內基梅隆大學(xué)機器人研究所的一年級博士生,導師同樣是Deepak Pathak。他的研究重點(diǎn)是,實(shí)現與人類(lèi)一樣的機械手的靈巧操作。機械手應該如何設計成是何在我們的日常生活中應用?我們如何教機械手模仿人類(lèi)?最后,我們如何使用模擬和大規模數據來(lái)解鎖新的靈巧操作行為?
Deepak Pathak
Deepak Pathak是卡內基梅隆大學(xué)計算機科學(xué)學(xué)院的助理教授,還是機器人研究所的成員。他的工作是人工智能,是計算機視覺(jué)、機器學(xué)習和機器人學(xué)的交匯點(diǎn)。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。