獨家 | 達摩院后的下一站:陳俊波推出具身智能大模型,要給所有機器人做一顆腦袋
但今年 3 月份,它背后的靈魂技術(shù)人物、原阿里達摩院自動(dòng)駕駛負責人陳俊波卻被爆出離職創(chuàng )業(yè)的消息。消息稱(chēng),他與前阿里機器人 CEO 谷祖林等人共同創(chuàng )辦了一家名為「有鹿機器人」的新公司,至于這家公司具體做什么,外界沒(méi)有得到確切答復。 近期,抱著(zhù)這個(gè)疑問(wèn),機器之心與陳俊波展開(kāi)了深入對談。 在對談中,陳俊波透露,他要做的并不是某一款機器人,而是一個(gè)放到任何傳統自動(dòng)化設備(比如清掃車(chē)、挖掘機、鏟車(chē)等)上都能正常運轉的通用機器人「腦袋」。這個(gè)「腦袋」可以跨模態(tài)、跨場(chǎng)景、跨行業(yè),具有極強的環(huán)境適應性,就像《變形金剛》里的「火種」一樣。從上述傳統設備當前的智能化率來(lái)看,這個(gè)「腦袋」一旦做出來(lái),有望服務(wù)于上億臺設備。
當然,這也意味著(zhù)更大的技術(shù)考驗。因此,在過(guò)去的大半年的時(shí)間里,陳俊波帶領(lǐng)「有鹿」一頭扎進(jìn)了比自動(dòng)駕駛更復雜的「具身智能」領(lǐng)域,希望借助大模型的力量賦予機器人在物理世界完成更多任務(wù)的能力,把類(lèi)似 ChatGPT 的能力擴展到物理世界。 具身智能:AI 領(lǐng)域的下一個(gè)「北極星問(wèn)題」
生物的進(jìn)化總能給智能的研究帶來(lái)很多啟發(fā)。過(guò)去 5.4 億年來(lái),地球上所有的生物都是通過(guò)身體逐步產(chǎn)生智能的。有了身體,智能體就可以在快速變化的環(huán)境中移動(dòng)、導航、生存、操縱和做出改變。相比之下,沒(méi)有身體的智能體只能「旁觀(guān)」,很難適應現實(shí)世界。因此,人工智能研究也自然而然地走向了「具身」的道路。人們希望機器人也能像生物體一樣,通過(guò)與環(huán)境交互以及自身的學(xué)習,產(chǎn)生對于客觀(guān)世界的理解和改造能力。具身智能也被斯坦福大學(xué)教授李飛飛定義為 AI 領(lǐng)域的下一個(gè)「北極星問(wèn)題」之一。
作為阿里內部「最早領(lǐng)潮自動(dòng)駕駛的人」,陳俊波也一直在關(guān)注具身智能領(lǐng)域,畢竟自動(dòng)駕駛車(chē)也是具身智能的重要載體。其多年來(lái)不斷積累的多模態(tài)學(xué)習、強化學(xué)習等能力在具身智能領(lǐng)域至關(guān)重要。 在陳俊波看來(lái),「大模型 + 機器人」組合的成功其實(shí)意味著(zhù)具身智能領(lǐng)域正在經(jīng)歷一場(chǎng)范式轉變,基于 Transformer 架構的極具表達能力的模型、互聯(lián)網(wǎng)規模的數據都是推動(dòng)這一轉變的關(guān)鍵力量。但是,要想在物理世界充分利用這些力量,現有的工作做得還遠遠不夠。 從實(shí)驗室到現實(shí)世界,具身智能還有哪些工作要做?
陳俊波以谷歌的 PaLM-E 為例,向我們展示了現有的具身智能大模型存在哪些改進(jìn)空間。這個(gè)模型集成了參數量 540B 的 PaLM 和參數量 22B 的視覺(jué) Transformer(ViT),使用文本和來(lái)自機器人傳感器的多模態(tài)數據(比如圖像、機器人狀態(tài)、場(chǎng)景環(huán)境信息等)作為輸入,輸出以文本形式表示的機器人運動(dòng)指令,進(jìn)行端到端的訓練。
它的結構如下圖中間部分所示:綠色的部分用來(lái)編碼機器人本身的狀態(tài),包括底盤(pán)、機械臂的位置等狀態(tài)量;傳感器捕捉到的圖像由一個(gè) ViT 模型來(lái)編碼(圖中藍色部分)。給定這些條件,人類(lèi)就可以發(fā)出一個(gè)自然語(yǔ)言指令,比如「如何抓起藍色的木塊」,然后這個(gè)指令就會(huì )被編碼為嵌入,并經(jīng)過(guò)一個(gè) CoT(chain of thought)的過(guò)程被轉換為一系列動(dòng)作。這些動(dòng)作會(huì )由一個(gè)動(dòng)作****(圖中的紫色部分)來(lái)執行,它會(huì )把每個(gè)步驟的指令轉化為機器人的扭矩等參數。
經(jīng)過(guò)測試,整個(gè)模型完成任務(wù)的成功率接近 80%。作為一個(gè)端到端的框架,「這是一個(gè)讓人覺(jué)得非常不可思議的工作,」陳俊波評價(jià)說(shuō)。但在實(shí)際的工作場(chǎng)景中,80% 的成功率離落地還有很大距離,「想象一下,如果說(shuō)我下發(fā) 100 個(gè)任務(wù),它有 20 個(gè)都失敗了…… 而且,這還是在實(shí)驗室的場(chǎng)景下,」陳俊波說(shuō)到。 究竟是哪里出了問(wèn)題?陳俊波指出了兩個(gè)關(guān)鍵點(diǎn)。 第一個(gè)問(wèn)題是,在傳感器圖像和文本 prompt 輸入的處理上,PaLM-E 只是將 VLM 與 LLM 簡(jiǎn)單拼合,做隱式建模。前者輸出的是抽象等級很低的像素級的特征,后者輸出的是抽象等級很高的自然語(yǔ)言級別的特征,二者直接拼合會(huì )帶來(lái)不匹配的問(wèn)題,導致模型的泛化能力非常有限?!赣芯湓?huà)叫一圖勝千言,就是說(shuō)圖像里面包含太多的細節,不可能用一個(gè)一個(gè)的文本就很簡(jiǎn)單地把它們對應起來(lái),」陳俊波解釋說(shuō)。 具體來(lái)說(shuō),PaLM-E 使用 ViT 來(lái)處理圖像,ViT 會(huì )把整個(gè)圖像切分成小的圖塊(patch),然后從每個(gè)圖塊中提取出關(guān)于圖像的基礎細節特征,比如顏色、邊緣、紋理,這些特征是「low level」的。與之對應,圖像中還有很多「high level」特征,比如不同物體之間的幾何關(guān)系、現實(shí)世界里的物理學(xué)規律、交通參與者的意圖…… 這是無(wú)法做顯式建模的 ViT 所提取不到的,這是它編碼物理世界的一個(gè)缺陷。 在 Prompt 的處理上,雖然 PaLM-E 會(huì )把人的高級指令拆解為更詳細的指令,但這一步的輸出仍然是自然語(yǔ)言。自然語(yǔ)言的問(wèn)題在于,它是一種高度抽象、模糊的系統,「比如說(shuō)『人類(lèi)』雖然只有四個(gè)字節,卻囊括了地球上幾十億的人類(lèi),」陳俊波解釋說(shuō)。這不僅和 ViT 輸出的「low level」的特征不匹配,對于底層控制器來(lái)說(shuō)也不夠友好,后者需要更具體、更精確的指令來(lái)執行任務(wù)。 第二個(gè)問(wèn)題是,PaLM-E 的動(dòng)作****存在天然缺陷,無(wú)法從海量無(wú)標簽的機器人數據中學(xué)習,也無(wú)法擴展到交互場(chǎng)景。 這是因為,PaLM-E 的動(dòng)作****采用了一個(gè)名為「RT-1」(Robotics Transformer-1)的模型,這個(gè)模型接收自然語(yǔ)言和圖像作為輸入,輸出機器人運動(dòng)指令(底盤(pán)位置和機械臂末端位置)。局限在于,這個(gè)模型是采用模仿學(xué)習的方式訓練出來(lái)的,而模仿學(xué)習本質(zhì)上屬于監督學(xué)習,因此無(wú)法在海量無(wú)標注數據上學(xué)習。 最近公布的 RT-2 模型使用了更多的訓練數據(在原來(lái)示教數據的基礎上增加了互聯(lián)網(wǎng)級別的 VQA 數據),將模型在沒(méi)見(jiàn)過(guò)(Unseen)的任務(wù)上的成功率從 32%(RT-1)提高到了 62%。如果將 PaLM-E 中的動(dòng)作****組件換成 RT-2,PaLM-E 的泛化能力想必也會(huì )大幅提升。但陳俊波指出,這并不會(huì )從根本上解決問(wèn)題,因為在學(xué)習機器人數據時(shí),它本質(zhì)上用到的還是模仿學(xué)習。
此外,模仿學(xué)習學(xué)到的函數針對一個(gè)固定的輸入只能輸出一個(gè)或一組固定的動(dòng)作,而交互場(chǎng)景要求針對相同的輸入,根據交互對象的選擇動(dòng)態(tài)調整輸出,所以模仿學(xué)習學(xué)到的模型本質(zhì)上無(wú)法在交互博弈場(chǎng)景中工作,而這項能力又是具身智能機器人走出實(shí)驗室所必需的。 已經(jīng)在園區跑起來(lái)的 LPLM
陳俊波在具身智能方向的工作主要圍繞以上待解決的問(wèn)題展開(kāi)。具體來(lái)說(shuō),他提出了一個(gè)名為「LPLM」(large physical language model)的大模型。整個(gè)模型的架構如下所示:
首先,這個(gè)模型會(huì )把物理世界抽象到一個(gè)很高的程度,確保這些信息能跟 LLM 里特征的抽象等級對齊,做顯式建模,從而實(shí)現很好的融合?;貞浺幌抡Z(yǔ)言學(xué)中的能指(用以表示抽象概念的語(yǔ)言符號,比如「人」這樣一個(gè)單詞)和所指(語(yǔ)言符號所表示的具體事物,比如圖像空間中的每一個(gè)人)的概念,LPLM 將物理世界中每一個(gè)所指的實(shí)體顯式建模為 token,編碼幾何、語(yǔ)義、運動(dòng)學(xué)與意圖信息,相當于在物理世界建模了一套全新的語(yǔ)言體系。 具體來(lái)說(shuō),這種對齊是通過(guò)多種方式來(lái)實(shí)現的,包括利用點(diǎn)云等多模態(tài)數據捕捉幾何信息;在多幀甚至無(wú)限幀數據之間做時(shí)序融合以跟蹤實(shí)體在不同時(shí)間點(diǎn)的變化,捕捉其運動(dòng)學(xué)和動(dòng)力學(xué)約束關(guān)系;在空間中建模各個(gè)實(shí)體之間的關(guān)系,從而捕捉它們在交互博弈環(huán)境中的意圖信息等。
其次,在自然語(yǔ)言指令的編碼上,LPLM 也做出了一些改進(jìn),加入了 3D grouding(grouding 可以理解為機器人怎么把用戶(hù)的語(yǔ)言對應到真實(shí)環(huán)境)。以有人問(wèn)「桌子在哪兒」為例,之前的 visual grounding 方法會(huì )把桌子所在區域的像素高亮出來(lái),但加入了 3D grouding 的 LPLM 會(huì )先把三維空間里的幾何關(guān)系恢復出來(lái),然后再把桌子所在的三維空間作 grounding。這相當于在物理世界中,明確告訴機器人作業(yè)目標在哪兒,在一定程度上彌補了自然語(yǔ)言不夠精確的缺陷。 最后,在****的設計上,為了讓模型具備從海量無(wú)標簽數據中學(xué)習的能力,LPLM 的****是通過(guò)不斷預測未來(lái)的方式去學(xué)習的。如此一來(lái),對于任何一段給定的數據,任何當前狀態(tài)都是對過(guò)去狀態(tài)的自動(dòng)標注,無(wú)需人工示教數據。在這一點(diǎn)上,陳俊波談到了 Yann LeCun 的思想 —— 智能的本質(zhì)是預測 —— 對于自己的啟發(fā)?!敢粋€(gè)一兩歲的孩子肯定不知道什么是萬(wàn)有引力,但通過(guò)長(cháng)期的實(shí)踐和觀(guān)察(比如扔東西),他的身體已經(jīng)知道了。我們也是用同樣的方法教機器人學(xué)習,」陳俊波談到。 那么,這一套方法到底有沒(méi)有效?陳俊波已經(jīng)用他們的第一款產(chǎn)品 —— 有鹿智能清潔機器人給出了答案。和傳統的只能進(jìn)行全覆蓋清掃和巡檢清掃的室外清潔機器人不同,內置了 LPLM 大模型的有鹿機器人支持隨叫隨到的清掃模式,比如你可以讓它「去 1 號樓清掃一下落葉」,或者說(shuō)「路邊有點(diǎn)臟,貼邊清掃一下吧」,機器人都能聽(tīng)懂,并且能在充滿(mǎn)行人、車(chē)輛的園區交互博弈環(huán)境中安全穿行,功耗僅 50 瓦。這體現了該機器人對語(yǔ)言語(yǔ)義、物理環(huán)境及行為意圖的融合理解。據悉,這款機器人將在即將到來(lái)的杭州亞運會(huì )上亮相。
給所有機器人做一顆腦袋
當然,對于陳俊波來(lái)說(shuō),將內置 LPLM 大模型的「腦袋」安在清潔機器人身上只是一個(gè)開(kāi)始。未來(lái),這套方案還將擴展到挖掘機、鏟車(chē)等傳統設備上。在他看來(lái),比起開(kāi)發(fā)一款服務(wù)于單個(gè)場(chǎng)景的完整產(chǎn)品,開(kāi)發(fā)一個(gè)通用的腦袋具有更大的社會(huì )價(jià)值。
在談到這件事情的可行性時(shí),陳俊波提到,雖然表面看起來(lái)這是一些跨模態(tài)、跨場(chǎng)景、跨行業(yè)的設備,但當模型對于物理世界的理解提升到三維甚至四維,很多共性的東西就可以被提取出來(lái)。這種情況下,以 LPLM 為代表的具身大模型相當于充當了物理世界的 Foundation model。此外,有鹿還定義了一個(gè)通用的硬件標準,這個(gè)標準會(huì )兼容現在所有的設備廠(chǎng)商。
在早年和蔣昌建談夢(mèng)想的時(shí)候,陳俊波說(shuō),他希望未來(lái)?類(lèi)會(huì )像擁有個(gè)?電腦?樣擁有機器?。一路走來(lái),他已經(jīng)越來(lái)越接近自己的夢(mèng)想。當初做小蠻驢的時(shí)候,他也經(jīng)歷了「機器一直掉螺絲,送不出幾個(gè)包裹」的階段,但到了 2022 年,平均每秒鐘都會(huì )有兩位消費者收到小蠻驢送出的包裹,這款產(chǎn)品也讓陳俊波看到了具身智能背后巨大的市場(chǎng)空間。
其實(shí),和小蠻驢所處的物流領(lǐng)域一樣,很多傳統行業(yè)對具身智能機器人都有著(zhù)強烈的需求。這些行業(yè)擁有海量的存量專(zhuān)業(yè)設備和專(zhuān)業(yè)機器人,也積累了豐富的行業(yè)經(jīng)驗和渠道品牌,只是設備的智能化率仍有很大的提升空間,而具身智能的快速發(fā)展有望為這些行業(yè)帶來(lái)一場(chǎng)大范圍的智能化升級。憑借多年來(lái)在具身智能領(lǐng)域的探索經(jīng)驗,陳俊波希望能與這些行業(yè)的企業(yè)家一起,迎接這場(chǎng)升級過(guò)程中的挑戰與機遇。
參考鏈接:https://mp.weixin.qq.com/s/MM_VLWmrrxev1zWuLKZZUQhttps://hub.baai.ac.cn/view/15855https://mp.weixin.qq.com/s/2ASdgAER2EYsmjipIiVyDg
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。