宇樹(shù)CEO 對“具身智能”和“人形機器人”未來(lái)的設想
2024 年8 月,“2024 世界機器人大會(huì )”在京舉行,期間舉辦了系列論壇,在8 月24 日下午的技術(shù)論壇上,主要話(huà)題是“人形機器人”,宇樹(shù)科技CEO 兼CTO 王興興做了報告,題目是:“具身智能”指明了實(shí)現AGI的方向。
本文引用地址:http://dyxdggzs.com/article/202412/465715.htm王興興 宇樹(shù)科技CEO兼CTO
王興興首先向來(lái)參會(huì )的美國AI 研究所執行主任、波士頓動(dòng)力公司創(chuàng )始人Marc Raibert(馬克·雷伯特)致敬,說(shuō)在他10 歲讀小學(xué)時(shí),看到了Marc 在MIT 實(shí)驗室做的雙足機器人和后空翻機器人,是從在中國引進(jìn)的科技紀錄片里,至今已二十幾年。宇樹(shù)公司2016年成立,至今也有8 年時(shí)間了。
王興興這次的報告是探討具身智能和AGI 的方向。
1 OpenAI的早期研發(fā)也是機器人
OpenAI 早期的目標是實(shí)現AGI(通用人工智能)。實(shí)際上,該公司早年在機器人方面投入很大,但是由于GPT 發(fā)展很快,因此該公司后來(lái)在機器人的發(fā)展方向上投入資源較少。但是王興興堅信“具身智能”是更好實(shí)現AGI 的方向。
為什么這么說(shuō)?王興興沒(méi)有直接回答,而是先介紹了宇樹(shù)機器人的發(fā)展歷程。
2 宇樹(shù)機器人的進(jìn)展
● Xdog —— 公司成立前的機器狗原型
早在2013—2015/2016 年,王興興在讀碩士期間做了XDog 機器人。當時(shí)初衷很簡(jiǎn)單,因為他一名學(xué)生沒(méi)有那么多的資源去做一個(gè)很大的液壓機器人,所以當時(shí)希望用一種簡(jiǎn)單的方法實(shí)現一個(gè)低成本、運動(dòng)性能很好的方案,所以他當時(shí)就用盤(pán)式無(wú)刷電機,再加上自己開(kāi)發(fā)的電機驅動(dòng)板,實(shí)現了XDog 方案。該方案的研發(fā)投入只有一兩萬(wàn)元。王興興在2015 年用這個(gè)機器人參加了上海的一個(gè)比賽,獲得了二等獎,贏(yíng)得了8 萬(wàn)元獎金。這筆獎金后來(lái)成為2016 年宇樹(shù)公司注冊時(shí)的啟動(dòng)資金。
圖1 宇樹(shù)公司的機器人
宇樹(shù)后續的產(chǎn)品主要是做高性能四足機器人,2023年年初又開(kāi)始做高性能人形機器人等技術(shù)產(chǎn)品(如圖1)。代表性的產(chǎn)品如下。
● 四足機器人Go1
宇樹(shù)目前的四足主機器人主要是兩款。第一款是小一點(diǎn)的Go1,最大特點(diǎn)是搭載了自研的3D激光雷達,并且在2023 年就搭載了OpenAI 的ChatGPT 接口,用戶(hù)可以直接用語(yǔ)音跟它對話(huà),讓它執行一些底層的動(dòng)作,并且也試著(zhù)集成了OpenAI 的多模態(tài)接口,用戶(hù)可以問(wèn)它前面有什么東西,它可以回答。
但是在開(kāi)發(fā)過(guò)程中,發(fā)現目前的大語(yǔ)言模型和多模態(tài)模型對滿(mǎn)足機器人的應用是非常不足的——它們對空間/ 整個(gè)物理世界的理解,包括對機器人本體的理解是遠遠不夠的。所以希望未來(lái)有更好的機器人模型誕生。當然這不可能僅指望一家公司,需要全球所有的實(shí)驗室和科技公司一起推動(dòng)。
● 工業(yè)級四足機器人B2
B2 也是2023 年發(fā)布的,是大一點(diǎn)的工業(yè)級四足機器人,最大的特點(diǎn)是負載和續航能力很強。對于大部分的工業(yè)場(chǎng)景,包括室內外、地下管廊或其他環(huán)境都是足夠適用的,這也是宇樹(shù)目前的一個(gè)主力型號。
● 人形機器人H1 和G1
在人形機器人方面,宇樹(shù)目前發(fā)展也非???。其實(shí)早在2009 年王興興讀大一的時(shí)候,寒假就做過(guò)一個(gè)小的人形機器人,當時(shí)非常便宜,只用了200 元。但是做好以后他非常失望——不僅對自己感到失望,也對當時(shí)全球范圍內人形機器人的科技發(fā)展速度感到有些失望。所以之后很多年,很多人問(wèn)宇樹(shù)做不做人形機器人?王興興非常堅決地回答“不做”。因為當時(shí)全球的技術(shù)及商業(yè)化程度,沒(méi)有辦法很好地推動(dòng)人形機器人發(fā)展。
但是在過(guò)去的幾年,很多實(shí)驗室用宇樹(shù)的機器狗做AI開(kāi)發(fā),宇樹(shù)也肉眼可見(jiàn)了強化學(xué)習在四足機器人里的飛速進(jìn)展。并且在2022 年底時(shí)ChatGPT 橫空出世,點(diǎn)燃了人們對生成式AI 影響機器人發(fā)展的信心。所以宇樹(shù)在2023 年初開(kāi)始做高性能人形機器。H1 人形機器是2023 年第一款人形機器人,最大特點(diǎn)是動(dòng)力性能強大,可謂當時(shí)全球同類(lèi)型電驅人形機器人中動(dòng)力性最強的之一。
2024 年5 月,宇樹(shù)又發(fā)布了第二款人形機器人——G1 工程機,8 月發(fā)布了量產(chǎn)版本。工程機器人也是整合了宇樹(shù)過(guò)去幾年對四足機器人、人形機器人的軟件、工業(yè)設計的經(jīng)驗,所以雖然這款機器人稍小一點(diǎn),只有1.3米高,但無(wú)論它的外觀(guān)、性能/ 關(guān)節靈活性、產(chǎn)品完成度都很高。宇樹(shù)已經(jīng)快要完成量產(chǎn)化的設計改造,預計年底前就可以量產(chǎn)。
圖2 是G1 的關(guān)節布置,可見(jiàn)非常流暢和漂亮。這里有個(gè)“?!?,其實(shí)這種關(guān)節布置對于動(dòng)力控制來(lái)說(shuō)并不是最優(yōu)的,腿有點(diǎn)重且不方便控制。但是為什么敢這么做?原因就是AI 技術(shù)的進(jìn)步,使很多原本不容易控制的變得容易解決了。
圖2 G1工程機的部分關(guān)節布置
2024 年5 月G1 剛發(fā)布時(shí)展示的一些運動(dòng)性能。里面用了一些傳統控制算法,但是大部分還是用了深度強化學(xué)習來(lái)實(shí)現。
目前產(chǎn)品的完成度還是非常高的,不怕踹、打,關(guān)節的靈活性也非常高,可以實(shí)現很多人實(shí)現不了的高難動(dòng)作,還輕便可折疊(如圖3)。
圖3 G1不怕踹、踢,關(guān)節靈活性高
H1 是在2024 年初時(shí)推出,可能是全球第一款可實(shí)現空翻的純電機驅動(dòng)的人形機器人,動(dòng)力性能非常強勁,也是用了“模仿學(xué)習+ 強化學(xué)習”的算法,因為這種機器人不太好控制,用傳統算法很難實(shí)現空翻(圖4)。通過(guò)“模仿學(xué)習+ 強化學(xué)習”,還實(shí)現了奔跑及跳舞等動(dòng)作。
圖4 H1在做空翻
在這次展會(huì )現場(chǎng),宇樹(shù)長(cháng)時(shí)間地在演示這個(gè)技術(shù),可見(jiàn)穩定性非常高。因為AI 技術(shù)相對于別的技術(shù),最大的一個(gè)點(diǎn)就是它對硬件和對機器人的泛用性還是非常好的,哪怕硬件有一點(diǎn)點(diǎn)偏差,它還是可以有很穩定的控制。
上述主要是基于深度相機的端到端深度強化學(xué)習。實(shí)際上,如果對于復雜地形也可以訓練。包括對于四足機器人——它本身也可以2條腿走路,包括連續的空翻,也是基于模仿學(xué)習和深度強化學(xué)習做的。這些功能早幾個(gè)月前,宇樹(shù)就已經(jīng)OTA 升級給全球客戶(hù)使用了。
宇樹(shù)還推出了基于開(kāi)源的遙操作數據采集系統(圖5)。因為目前AI 技術(shù)基本上是數據驅動(dòng)的,因此對人形機器人的數據采集是剛需的,所以宇樹(shù)做了一套比較簡(jiǎn)單的輕量化的數據采集系統。但這還需要更多完善。
圖5 H1的遙操作
2024 年年中,宇樹(shù)在基于模仿學(xué)習和深度強化之上做了G1 的一些升級性動(dòng)作(圖6)。
圖6 G1升級了一些高難動(dòng)作
3 宇樹(shù)的下一步規劃
人們可能覺(jué)得宇樹(shù)的機器人現在已經(jīng)做得不錯了,但實(shí)際上要做的事情還非常多。
例如,目前這些動(dòng)作基本上是每個(gè)動(dòng)作單獨做AI訓練的,但在很多場(chǎng)景下,人們還是希望一臺機器人可以自動(dòng)切換所有的動(dòng)作,而不需要人為地去切換動(dòng)作,即一個(gè)通用AI機器人能做所有的事情。這也是通用AI希望達到的目標。這也是用深度相機來(lái)做端到端訓練的。
4 “深度強化學(xué)習”的近期發(fā)展方向
● 全身任意姿態(tài)或舞蹈等動(dòng)作的模仿深度強化學(xué)習。
● 復雜地形下的全身任意穩定運動(dòng)。
● 手部:對于復雜物品或零部件,有較復雜的靈巧操作?,F在全球范圍內用模仿學(xué)習可以實(shí)現較大物體的操作,例如把水杯從一處拿到另一處。但是對于更精細一點(diǎn)的活兒還做不好,例如焊電路、穿針引線(xiàn)、打一個(gè)結等。但這些都是非常值得做的。
● 基于圖像或深度數據等感知數據的強化學(xué)習導航避障。
5 未來(lái)能做的激動(dòng)人心的事:世界模型=AGI
● “世界模型”包括對時(shí)空和物理規律的理解
再好高騖遠一下,展望人形機器人能做的更加激動(dòng)人心的一些事情。王興興看好“世界模型”,并認為具身智能是實(shí)現“世界模型”的一個(gè)方向。不過(guò)需要指出的是,這可能不是宇樹(shù)目前能實(shí)現的,希望全球的從業(yè)者都能推動(dòng)這件事情,而且這將是未來(lái)最激動(dòng)人心的時(shí)刻。
“世界模型”包括機器人對自身時(shí)空的理解,以及對物理規律的理解。實(shí)際上,人們也知道現在的AI 技術(shù)對機器人的身體和對世界的理解是完全不夠的,例如對重力、摩擦力和接觸的理解是非常差的。如果有更好的AI能把機器人對自身的認知和對環(huán)境的理解做出來(lái),就可以大大推動(dòng)整個(gè)機器人行業(yè)的進(jìn)步。
而且“世界模型”本身就是AGI 的一個(gè)方向,可能就是用來(lái)真正實(shí)現AGI 的。因為AGI 最大的發(fā)展點(diǎn)是大部分人能做的事情它應該都能做,包括開(kāi)車(chē)、洗衣做飯、工廠(chǎng)工作。如果“世界模型”對世界本身有很好的建模,那么這種目標就差不多要實(shí)現了。例如特斯拉的FSD(完全自動(dòng)駕駛),“世界模型”對整個(gè)車(chē)輛和周邊環(huán)境都會(huì )有建模,包括對前車(chē)的速度判斷、撞擊等一些未來(lái)動(dòng)作的預判,也會(huì )有好的建模和理解。
● 大模型的發(fā)展離不開(kāi)“身體”
另一方面,很多做AI 的企業(yè),包括OpenAI,對大腦的重視程度非常高。但身體才是最重要的,因為大腦和身體是分不開(kāi)的。
舉個(gè)簡(jiǎn)單的例子,這也是王興興從小就非常困擾的一個(gè)問(wèn)題:做夢(mèng)的時(shí)候,為什么會(huì )突然感覺(jué)從懸崖上往下掉,或者在夢(mèng)里為什么跑不快?這個(gè)問(wèn)題在他本科的時(shí)候才想通,其實(shí)原因很簡(jiǎn)單:人在睡覺(jué)的時(shí)候,大腦跟身體的感知是完全斷開(kāi)的,你不能感知到身體的皮膚,也不能控制肌肉,所以你的大腦本身是沒(méi)有物理世界連接的。
所以在我們原本的認知里,跑步時(shí),我每跑一步腳都是要跟地面有接觸的,接觸以后你的大腦知道我接觸到地面了,我要邁另外一只腳。但是在我們做夢(mèng)的時(shí)候,由于跟物理世界脫離了關(guān)系,你的大腦其實(shí)不知道你已經(jīng)踩到地面了,所以你永遠感覺(jué)你的腳輕飄飄的,跑不快,沒(méi)辦法使力,所以這也是體現了目前的大的身體的重要性。包括為什么會(huì )覺(jué)得從懸崖上往下面掉,因為你在跟身體斷開(kāi)連接的時(shí)候,你其實(shí)并不知道你的身體跟床是接觸的,你覺(jué)得你是懸空的,所以你往下掉。
這也回答了一個(gè)非常簡(jiǎn)單的問(wèn)題,就是為什么現在大語(yǔ)言模型會(huì )有幻覺(jué)?簡(jiǎn)單地解釋就是目前的大語(yǔ)言模型活在夢(mèng)里,對物理世界是脫離連接的——不能感受到自己的身體,也不能看到,也不能撞到頭部,也不能眨眼睛……。所以它整個(gè)的閉環(huán)跟物理世界的連接斷開(kāi)以后,讓所有的大語(yǔ)言模式都是活在夢(mèng)里。由于它是非常虛擬的,所以會(huì )有很多幻覺(jué)、不真實(shí)——它自己都不知道做的事情真不真。原因也非常簡(jiǎn)單,例如有人在說(shuō)夢(mèng)話(huà),如果你跟他說(shuō)一句話(huà),他也回答你的問(wèn)題。但是說(shuō)夢(mèng)話(huà)的人所說(shuō)的是稀里糊涂的,沒(méi)有邏輯可言。所以這也體現了身體的重要性。
● 人和動(dòng)物“換腦”會(huì )如何?
王興興又分享一個(gè)有趣的想法,是他小時(shí)候非常喜歡的思考:人為什么比動(dòng)物聰明?如果把人的大腦放到狗里,或者豬里,或者把豬的大腦放到人里,到底哪種結構可以誕生更多的智能?
他一直在反思,這是受多方面的原因限制的,而且可能物理限制還會(huì )更多。例如他很懷疑:如果把一只猴子的大腦放到人的身上,Ta 照樣是可以說(shuō)話(huà)的。
但是為什么猴子不能說(shuō)話(huà)?原因非常簡(jiǎn)單,其喉嚨和聲帶不支持它說(shuō)話(huà)。舉個(gè)最簡(jiǎn)單的例子,像鸚鵡的神經(jīng)元其實(shí)是比較少的,比較聰明、能說(shuō)話(huà)的鸚鵡大概只有2~30 億的神經(jīng)元,但是猴子的神經(jīng)元跟它差不多,甚至猩猩的神經(jīng)元比它更多,但是為什么猩猩說(shuō)不了話(huà),而且只能發(fā)一些低級的聲音?可能人們猜測是聲帶的原因。這也可以解釋鸚鵡為什么能說(shuō)話(huà)?因為它很喜歡吃堅果,在吃堅果的過(guò)程中,它的喉嚨和舌頭鍛煉得非常靈活,所以它沒(méi)有物理限制。所以這也是很大層面上一些高等動(dòng)物,諸如一些海豚、鯨等,是因為它們的聲帶限制了它們的發(fā)聲。
表1 部分動(dòng)物與人類(lèi)的神經(jīng)元數量
所以除了純粹的AI,還需要:①對內,有身體,包括對視覺(jué)和身體的感知都非常重要,包括對實(shí)時(shí)的數據采集;②對外:對物理世界的了解,包括對一些碰撞、重力、摩擦力、光學(xué)等的理解。
● 人的輸出能力有潛力可挖
王興興還介紹了一個(gè)有趣的觀(guān)點(diǎn):目前人的數據輸出能力是非常弱的,而人的數據輸入能力非常強,因為人有眼睛,看一張圖片或視頻的時(shí)候,數據的輸入量非常大,至少每秒鐘幾百或幾千kB 的數據量。但是人輸出數據的能力其實(shí)非常弱,只能通過(guò)說(shuō)話(huà)或者敲鍵盤(pán)。最頂尖的人敲鍵盤(pán)的速度大概可能也就1 秒幾個(gè)字而已——比特流是非常低的。所以如果有一種輸出設備諸如人機接口可以把人的數據輸出能力大大提升,這對人本身的智能提升,包括工作效率會(huì )有非常大的提升。而且這項技術(shù)可以通過(guò)不需要用大腦植入式的設備,只要在表皮能連接上一些神經(jīng)元就可實(shí)現。
所以如果有一些神經(jīng)學(xué)或生物醫療相關(guān)的朋友,沒(méi)準可以試試這個(gè)方向?
王興興為什么愿意分享這個(gè)方向?因為他覺(jué)得自己沒(méi)有能力去做。歡迎有興趣、有能力的朋友去嘗試一下,或者與他一起去做這件事情。
另外他又分享了一個(gè)體驗:他小時(shí)候看一些電視劇,看到有些武林高手的耳朵是可以動(dòng)的,就是他們的肌肉可以控制耳朵動(dòng),但是普通人實(shí)現不了。其實(shí)這個(gè)本領(lǐng)是可以鍛煉出來(lái)的。例如王興興在高中上英語(yǔ)課時(shí)總分心,有一段時(shí)間練習用想法控制腦袋殼上一塊肌肉的運動(dòng),練習了好幾天,突然有一天就能控制那塊肌肉了!未來(lái),也許用外部的腦機接口直接連接/ 替掉一些神經(jīng)元,然后去鍛煉一下,就能作為很好的人機接口輸出。
● 比人類(lèi)更高級的智能形態(tài)會(huì )什么樣?
現在和曾經(jīng)的AI 網(wǎng)絡(luò )是模仿人類(lèi)的,但又不完全跟人類(lèi)一樣。這就像飛機一樣,飛行原理是參考了鳥(niǎo)的飛行原理,但是跟鳥(niǎo)又不完全一樣。所以用計算機實(shí)現的智能形態(tài),跟人的智能形態(tài)多少還是會(huì )有差異的。
● AGI的黎明快要到來(lái)
在2024 年年初的時(shí)候,王興興預估在2025 年年底之前,在全球至少有一家實(shí)驗室或公司可以把通用型的機器人AI模型給做出來(lái)。當然不知道是哪一家,有可能是中國,也有可能是美國的公司或者實(shí)驗室。
● 盡可能相信AI
有了生成式AI,當下是迄今人類(lèi)歷史上最激動(dòng)人心的時(shí)刻。
● 跨尺度智能
除了跟人一樣大小的人形機器人,還可以做更小更小的人形機器人,也可以做更大的人形機器人。例如可以做細胞大小的人形機器人,可以做比如100 萬(wàn)個(gè),然后當人生病的時(shí)候,只要把100 萬(wàn)個(gè)人形機器人打到身體里面,就可以修復組織[1]。當然這個(gè)概念還比較遙遠。
參考文獻:
[1] 最小行走機器人能做微觀(guān)測量[N].熊文苑,譯.參考消息.2024-12-8.
(本文來(lái)源于《EEPW》202412)
評論