波士頓動(dòng)力等中外專(zhuān)家探討“人形機器人”的過(guò)去與未來(lái)
8 月24 日,“2024 世界機器人大會(huì )”主論壇進(jìn)入第三天,在下午的主論壇上,舉辦了“為人形機器人發(fā)展提供新‘動(dòng)力’”的對話(huà)環(huán)節,德國慕尼黑工業(yè)大學(xué)教授A(yíng)lois C. Knoll主持,AI研究所執行主任、波士頓動(dòng)力公司創(chuàng )始人Marc Raibert(馬克·雷伯特)與來(lái)自本土的四家企業(yè)老總參與了討論。
本文引用地址:http://dyxdggzs.com/article/202410/463759.htm主持人——德國慕尼黑工業(yè)大學(xué)教授A(yíng)lois C. Knoll首先做了開(kāi)場(chǎng)白。
我們已經(jīng)走了很長(cháng)的路,但也許不是每個(gè)人都意識到這是一條非常非常長(cháng)的路。
捷克作家卡雷爾·卡佩克(Karel Capek)于1920 年創(chuàng )作了一部名為《R.U.R.(Rossum’s Universal Robots),羅薩姆的通用機器人》的戲劇,該劇于1921 年首次上演。因此100多年前,機器人(robot)這個(gè)詞出現注1。有點(diǎn)可悲的是,即使在那時(shí),機器人也基本上接管了人類(lèi),并治愈了人類(lèi)。所以從那一刻起,人形機器人就有了相當負面的含義注2。
第一個(gè)機械的、實(shí)際工作的人形機器人是由美國西屋電氣公司為1939 年的世界博覽會(huì )生產(chǎn)的,叫Elektro。Elektro 2.1 米高,重120 公斤,可以根據語(yǔ)音命令走路、說(shuō)大概700 個(gè)詞(使用一個(gè)錄音機)、抽煙,吹氣球、移動(dòng)頭和胳膊,光電眼能分辨紅色和綠色光。后來(lái),Elektro 有了一條四條腿的狗作伴,名叫Sparko。
圖1 1940年,Elektro有了自己的機器狗Sparko
這也是很久以前——80 年前的事了。
如果繼續前進(jìn),我不得不說(shuō),我必須向所有有不同意見(jiàn)的人道歉。這是對此后幾年重要事件的個(gè)人看法,早在1973年,微處理器發(fā)明后不久,日本早稻田大學(xué)建造了第一個(gè)人形機器人Wabot-1,它是一個(gè)全尺寸的人形機器人。隨后是Wabot-2,能讀樂(lè )譜并彈奏電子鍵盤(pán)。它頭上有一個(gè)攝像頭,并且有五指,那是在1980年——44 年前的事情了。
第二波浪潮是行走機器人的時(shí)代,在1985—2010年。有一些不同的實(shí)驗室參與其中,本田是一家出色的公司,他們從1986 年兩足步行機開(kāi)始,以ASIMO 結束——2005 年推出第二版。遺憾的是,該計劃被終止了。但正如Marc(波士頓動(dòng)力)所說(shuō),如果你真的想賺錢(qián),也許在那時(shí),不應該建造人形機器人。也許這種情況正在改變。
在第二波,主要是行走、全身移動(dòng)和一些有趣的軀干的研發(fā)。
我也做一點(diǎn)自我營(yíng)銷(xiāo)。在2000 年,我發(fā)起并主持了第一屆IEEE/RAS 人形機器人會(huì )議(Humanoids2000)。
多年來(lái),該會(huì )議不斷發(fā)展壯大,最近一次是2024 年在法國舉行的。
2008年,我參與了歐盟旗艦項目的概念開(kāi)發(fā),2013年是該項目的人腦項目HBP 的聯(lián)合創(chuàng )始人。2009 年參
與了歐盟大型項目ECHOPD(歐洲開(kāi)放機器人協(xié)調中心),是一個(gè)為期10 年、耗資5000 萬(wàn)歐元的大型服務(wù)機器人項目。
從2006起,我們也做了多款人形機,最新的是2024年的roboy(如圖2)。
圖2 主持人在做開(kāi)場(chǎng)白。四位國內領(lǐng)軍企業(yè)的老總(從左3至右)是:星動(dòng)紀元創(chuàng )始人、清華大學(xué)交叉信息研究院助理教授陳建宇,宇樹(shù)創(chuàng )始人、CEO兼CTO王興興,北京大學(xué)前沿計算研究中心助理教授、北大銀河通用具身智能聯(lián)合實(shí)驗室主任王鶴,北京具身智能機器人創(chuàng )新中心總經(jīng)理熊友軍。
2 為何對人形機感興趣
主持人:王興興(宇樹(shù))在大會(huì )的主題報告中稱(chēng):我們現在正進(jìn)入一個(gè)新時(shí)代,發(fā)展可能會(huì )呈指數級增長(cháng)。
想問(wèn)小組成員的一個(gè)問(wèn)題:是什么讓你們與人形機聯(lián)系在一起?你為什么對人形機感興趣?
我很不禮貌,讓我從自己的介紹開(kāi)始。自2001 年以來(lái),我一直是慕尼黑工業(yè)大學(xué)的教授,我對人形機器人的一個(gè)方面產(chǎn)生了興趣,那就是具身。
我和蘇黎世大學(xué)的朋友Paul Pfizer(音)一起(可惜他已經(jīng)退休了),我們都是具身的堅定信徒。我們認為,只有在以非常自然的方式與世界相連的人體中,才能發(fā)展出人形的智能。因此,身體應該具有相同的動(dòng)力學(xué)和尺寸等。否則將很難發(fā)展。關(guān)于這一點(diǎn),可以看到一系列機器人是這種具身智能的結果之一。
內在功能比外在表象重要
Marc(波士頓動(dòng)力):人形是否意味著(zhù)有兩只胳膊、兩條腿、一個(gè)頭?實(shí)際上,直到最近我才感興趣人形機器人。我一直認為,功能(注:因為Marc 是一名教授)是最重要的——移動(dòng)性、靈活性、感知力和智力等,形態(tài)和化妝是次要的。另外,人形機器人意味著(zhù)動(dòng)態(tài)的、逼真的,能與外界互動(dòng)。
我一直是人形機器人的粉絲,盡管波士頓動(dòng)力公司制造的第一個(gè)機器人是彈簧棍(音:pogo stick)之類(lèi)的東西。但我認為人形機器人的許多要素都在那些彈簧棍的東西里。當波士頓動(dòng)力公司開(kāi)始建造機器人時(shí),那些直立的、有雙腿和雙臂、有時(shí)甚至可以向前移動(dòng)的機器人很吸引人公眾(非科學(xué)家、非工程師),例如在視頻網(wǎng)站YouTube上,點(diǎn)擊量會(huì )是四條腿機器人的10 倍以上,可見(jiàn)公眾對人形機器人更感興趣,而狗卻沒(méi)有得到同樣的關(guān)注。
人形機的幾點(diǎn)改進(jìn)方向
北京具身智能機器人創(chuàng )新中心總經(jīng)理熊友軍:我開(kāi)始對機器人感興趣是在讀博士時(shí)——2000 年開(kāi)始做工業(yè)特種機器人,用在一些危險環(huán)境里。這是因為那時(shí)機器人技術(shù)還很不成熟,但是在一些領(lǐng)域,尤其在危險場(chǎng)景里必須要由機器人去完成。
但是那時(shí)機器人的智能是很低的。所以當時(shí)的辦法是將機器人的智能跟人的智能結合起來(lái),所以做了機器人遙操作。
但是在遙操作過(guò)程中,發(fā)現很多場(chǎng)景用工業(yè)機械手臂、輪式機械臂解決不了的問(wèn)題,尤其在一些狹小、復雜的環(huán)境中,輪式、履帶式進(jìn)不去,但是人可以進(jìn)去;還有一種情況是需要使用很多工具去完成的工作,當時(shí)用機械手臂等機器人很難去完成??梢?jiàn),人形機器人應該是一種好的工具或解決方案。
當年本田公司的機器人P1(1993)、P2(1996)、P3(1997)及ASIMO(P4 的俗稱(chēng),2000),給我提供了一些啟發(fā)。從那時(shí)起我對人形機器人非常感興趣,畢業(yè)后一直從事機器人方面的工作。
2012 年在上海,我與周劍(注:現任優(yōu)必選CEO)等人合作,一起創(chuàng )建了優(yōu)必選。之后一直在做人形機器人/ 機器人的研發(fā)工作。2023 年我從深圳來(lái)到北京,籌建了“北京具身智能機器人創(chuàng )新中心”,聚焦人形機器人方面的研發(fā),希望解決人形機器人的一些共性和關(guān)鍵性技術(shù),包括三個(gè)方面。
①本體技術(shù)研發(fā)的不足——現在人型機器人在本體、關(guān)鍵的核心器件、傳感器等方面有非常多要攻克的地方。
②運動(dòng)控制方面的技術(shù)研發(fā),采用深度強化學(xué)習的運動(dòng)控制方式,包括現在也用一些AI 神經(jīng)網(wǎng)絡(luò )的方式用去做運動(dòng)控制。
③智能的研發(fā),例如用具身智能的方式,做具身智能的一些基礎性工作,例如建數據集,去研發(fā)具身智能模型的框架等。
堅持源于熱愛(ài)
星動(dòng)紀元創(chuàng )始人、清華大學(xué)交叉信息研究院助理教授陳建宇:我的興趣來(lái)10歲左右對智能機器人非常感興趣,例如對本田ASIMO 非常著(zhù)迷。
但是創(chuàng )業(yè)充滿(mǎn)了挑戰性,例如Marc創(chuàng )辦了波士頓動(dòng)力公司,并已做了40多年,非常令人尊敬。假設沒(méi)有一個(gè)發(fā)自?xún)刃牡?、天生的熱?ài),是很難堅持下來(lái)的。所以我對機器人的熱愛(ài),某種程度上是與生俱來(lái)的。但真正開(kāi)始做是在大學(xué)本科時(shí),當時(shí)在學(xué)校里接觸了機器人,知道IHMC(人類(lèi)與機器認知研究所)的一款雙足機器人,當時(shí)我主要做捕獲點(diǎn)的不太規范的研究,后來(lái)博士階段繼續做機器人,雖然不是人形,但也是相關(guān)領(lǐng)域,包括控制、無(wú)人車(chē)和機械臂等。
在我回國后,在清華接觸了一個(gè)項目后,正式開(kāi)始投入去做人形機器人了,后來(lái)孵化了星動(dòng)紀元公司。如今,星動(dòng)紀元最新一代的機器人是第六代產(chǎn)品。
關(guān)注新的智能體機器人
宇樹(shù)創(chuàng )始人、CEO兼CTO王興興:我10 歲左右就看過(guò)波士頓動(dòng)力公司在MIT 實(shí)驗室做的單腿、雙足人形機,印象非常深刻。之后在2009、2010 年——大一寒假時(shí)做過(guò)一個(gè)小人形機器人,但不太滿(mǎn)意。在研究生期間又做了一款機器人,采用了低成本的硬件,運動(dòng)性能非常好,可以直接實(shí)現關(guān)節的力控及整機的力控。開(kāi)始時(shí)我對人形技術(shù)比較悲觀(guān),但是后來(lái)在2022年左右,隨著(zhù)整個(gè)機器人、AI 技術(shù)的進(jìn)步,再加上ChatGPT出來(lái)以后,人們看到了人形機和AI 結合的可能性,所以宇樹(shù)公司重新開(kāi)始做高性能的人形機。實(shí)際上,宇樹(shù)真正感興趣的并不是人形機,而是新的智能體機器人的形態(tài)。
人形機器人只是目前人們比較公認的一種最有可能的“通用機器人+ 通用AI”的結合體,但是這可能并不是唯一的。宇樹(shù)希望誕生比人類(lèi)更高級的智能體,以大大推動(dòng)人類(lèi)的工業(yè)變革,推動(dòng)新的工業(yè)革命。努力研發(fā),使人形機走進(jìn)千行百業(yè)、千家萬(wàn)戶(hù)北京大學(xué)前沿計算研究中心助理教授、北大銀河通用具身智能聯(lián)合實(shí)驗室主任王鶴:我與人形機器人和具身智能結緣,是從斯坦福大學(xué)讀博開(kāi)始,2016 年深度學(xué)習技術(shù)已經(jīng)出來(lái),也應用在了圖像識別、分類(lèi)等任務(wù)中。
當時(shí)作為一個(gè)前沿研究,人們試圖去理解人類(lèi)是如何把感知、思考和交互能力融合在一起的。所以我博士期間的第一個(gè)工作就是用一個(gè)視覺(jué)模型來(lái)看桌面上人的動(dòng)作和物體的運動(dòng),然后推理人下一步想要什么。這是一個(gè)語(yǔ)言模型。最后再用一個(gè)簡(jiǎn)單的機器人——一個(gè)智能的馬克杯去響應人的動(dòng)作。
這個(gè)工作獲得了歐洲圖形學(xué)的最佳論文提名。但是它還有很多不足,例如馬克杯只能在桌面上移動(dòng);機器人只能響應動(dòng)作,沒(méi)有跟人交互的能力;視覺(jué)只能看有限的幾種物體;語(yǔ)言模型只能根據人與桌面東西的一些動(dòng)作來(lái)做簡(jiǎn)單的推理。
通過(guò)過(guò)去8 年的研究,已取得了一些技術(shù)進(jìn)展,例如怎樣把機器人的操作能力做得更泛化——什么東西都能抓取和放置;還有跟現在的多模態(tài)大模型技術(shù)相結合,真正明白人類(lèi)想讓你干什么、言出法隨地去執行。2023年我們還孵化了“北大銀河通用具身智能聯(lián)合實(shí)驗室”這家人形機器人公司?,F在把視覺(jué)、語(yǔ)言、動(dòng)作這三種不同的模態(tài)融合到大模型中,真正賦能人形機器人。公司的愿景是:使人形機器人能走進(jìn)千行百業(yè)、千家萬(wàn)戶(hù)。
3 今天相比10年前的優(yōu)勢,未來(lái)5年將會(huì )怎樣?
主持人:在你們看來(lái),我們今天擁有哪些10 年前沒(méi)有的重要技術(shù)?因為人們可能會(huì )有這樣一個(gè)問(wèn)題,為什么在2000 年時(shí)不可能看到今天的情況?對注重實(shí)際的人來(lái)說(shuō)至關(guān)重要的:未來(lái)5 年,這個(gè)行業(yè)將如何發(fā)展?
硬件開(kāi)發(fā)和AI 在進(jìn)步
Marc(波士頓動(dòng)力):今天在很大程度上取決于硬件開(kāi)發(fā)和AI。如果談?wù)撐磥?lái)5 年,硬件開(kāi)發(fā)將繼續發(fā)揮重要作用,毫無(wú)疑問(wèn),能夠打破語(yǔ)義理解障礙的基礎模型或其他AI 方法將是最具影響力的。
人類(lèi)可以做的就是概括和理解他們所看到的事物的意義,但這種意義仍然沒(méi)有被真正捕捉到,相信AI 能在這方面取得進(jìn)展。其他將取得巨大進(jìn)步的包括計算機、傳感器、感知控制、電池等。
我認為人們忘記了電池——它是工業(yè)時(shí)代的產(chǎn)物,但電池真的很重要。所以在汽車(chē)行業(yè),人們在過(guò)去的5年里把電池做得更好。
主持人:人形機也將從電動(dòng)汽車(chē)的電池等技術(shù)發(fā)展中獲利,當然還有消費電子。
5年內可能迎來(lái)ChatGPT時(shí)刻
北京具身智能機器人創(chuàng )新中心總經(jīng)理熊友軍:從AI視角來(lái)看有非常大的不同:10 年前/2014 年左右,深度學(xué)習剛出來(lái)不久。它解決了圖像處理等問(wèn)題。之后有兩個(gè)重要的里程碑:①以2016 年阿爾法狗為代表的深度強化學(xué)習,而不是學(xué)習。強化學(xué)習有非常長(cháng)的歷史,主要是深度學(xué)習出來(lái)之后,緊接著(zhù)把它用在了強化學(xué)習上面。深度強化學(xué)習解決了強化學(xué)習的維度災難的問(wèn)題。②最近以ChatGPT 為代表的大語(yǔ)言模型。
所以這兩個(gè)是過(guò)去10 年以前所沒(méi)有,但是又對未來(lái)機器人、具身智能的發(fā)展起著(zhù)決定性的作用的兩種技術(shù)。
可能在接下來(lái)的幾年,這兩項技術(shù)會(huì )非常深度地跟人形、具身智能融合起來(lái),但它們也分別需要經(jīng)過(guò)一定程度的skill,強化學(xué)習也需要訓練,做比較通用的模型。以大模型為代表,仿真model 也需要去skill,以解決更加豐富的物理世界的數據程序。
相信在接下來(lái)的5 年,這幾項技術(shù)能取得大的進(jìn)展。我們可能會(huì )在5 年內迎來(lái)ChatGPT 時(shí)刻。
機器人AI 模型的發(fā)展將很快
陳建宇(星動(dòng)紀元、清華):過(guò)去10 年最大的變化還是由AI 技術(shù)帶來(lái)的,人們對AI 能做的事情有更多的信心了。
此外,對于本體企業(yè),包括整個(gè)社會(huì )對人形機的共識也是非常關(guān)鍵的。目前人們相信人形機器人可以產(chǎn)生更多的價(jià)值,這在10 年前是完全不能想象的——那時(shí)整個(gè)社會(huì )對人形機沒(méi)有什么信心。
在未來(lái)5年,機器人AI模型的變化會(huì )非???。因為目前AI日新月異,人們可以用AI 集成技術(shù)去搭建各種自己的模型去做訓練,整個(gè)已經(jīng)變成一個(gè)非常扁平化以及容易化的操作過(guò)程。因此很多人可以參與進(jìn)來(lái),去做機器人模型、去做訓練。所以未來(lái)5 年,各種AI模型創(chuàng )新,包括更新的神經(jīng)網(wǎng)絡(luò )模型、脈沖神經(jīng)網(wǎng)絡(luò )等,都有很多的機會(huì )。
過(guò)去實(shí)現完美抓取,未來(lái)還能夾擰掰
王興興(宇樹(shù)):自2014 年以來(lái)的10 年發(fā)展很快。10 年前我們已經(jīng)看到了一些曙光。其實(shí)在那時(shí),具身智能甚至不是一個(gè)在西方學(xué)術(shù)界流行的詞匯。但過(guò)去10 年的一大技術(shù)進(jìn)展是:我們在具身智能里已經(jīng)有一些技能實(shí)現了非常強的泛化性。
以我個(gè)人的研究舉例,在抓取的問(wèn)題上已經(jīng)取得了長(cháng)足的進(jìn)步:從只能抓方塊、圓形等特定形狀的物體,到基于三維視覺(jué)傳感器,可以抓不透明、不反光的,在深度傳感器里能完美成像的物體,到最近的技術(shù)能夠預測透明、高反光金屬、吸光等非常有挑戰材質(zhì)的物體的深度,基于它去做泛化的抓取。宇樹(shù)現在已經(jīng)能把抓取做得相當好。在此次機器人大會(huì )上,宇樹(shù)等公司的展臺上,機器人能接受觀(guān)眾給出的各種形狀、材質(zhì)、隨便堆疊的物體。宇樹(shù)的機器人展示了非常泛化和高成功率的抓取能力。
但是很多人會(huì )提問(wèn):你能幫我抓水瓶,能不能再幫我把瓶蓋給擰開(kāi)?非常不好意思,現在泛化的開(kāi)瓶蓋技能還沒(méi)有訓練出來(lái)。但這就是大模型能夠帶給我們的機會(huì )。那么語(yǔ)言大模型的涌現,也就是emergent behavior,能夠在只見(jiàn)一次甚至零次的演示情況下,就理解你要生成什么樣的文字。相信未來(lái)5 年,給我們的機會(huì )就是發(fā)展機器人的基礎大模型,能夠實(shí)現涌現能力。它吞吐了足夠大量的數據以后,以靈巧手為例,它能夠抓、夾、擰、掰……,能夠做各種基本的手的運動(dòng)。給它看一個(gè)視頻,它就能理解這個(gè)活兒該怎么干。到那時(shí),我們就有了一個(gè)通用的、至少是做操作任務(wù)的機器人了。
這是我認為未來(lái)5 年的一個(gè)機會(huì )。
人機交互、硬件與電池的變遷
北京大學(xué)前沿計算研究中心助理教授、北大銀河通用具身智能聯(lián)合實(shí)驗室主任王鶴:這一輪機器人技術(shù)的進(jìn)步主要是由AI 來(lái)驅動(dòng)的,體現在幾個(gè)方面:第一,人機交互能力得到了極大提升。記得10 年前做AI- 機器人的交互,如果要加語(yǔ)音、視覺(jué),第一是成本非常高,第二,要做大量的研發(fā)的工作,需要幾個(gè)博碩帶著(zhù)一個(gè)團隊,花費很長(cháng)時(shí)間才能夠完成一些物體識別、語(yǔ)音合成,然后是自然語(yǔ)言理解、謬批,甚至是tts語(yǔ)音合成等方面的工作,甚至包括導航。
但是現在隨著(zhù)技術(shù)的進(jìn)步,現在做VIA 的大模型,直接做端到端的語(yǔ)音給它,然后很快就可以有比較好的行為輸出,有很好的意圖理解,然后做任務(wù)規劃等。這一輪的對人機交互、對任務(wù)的規劃、執行等方面都有巨大的提升,這在10 年前很難去想象。
第二,在硬件方面也有巨大的提升,體現在兩個(gè)方向:①關(guān)節性能的提升非???,很多公司的機器人可以做一些動(dòng)態(tài)、劇烈的運動(dòng),這離不開(kāi)關(guān)節性能的提升——高的能量密度比、高的轉速、高的性能等技術(shù)的提升,這在10 年前是很難做到的。②這離不開(kāi)運動(dòng)控制能力的提升,電機的提升?,F在更多采用結構設計的方式,讓布局等方面有非常大的進(jìn)步,包括把腿轉成慣量,把電機的性能往上提等各種各樣的結構設計的技術(shù)變化。
第三,能量。10 年前我們做機器人的手段,一個(gè)電池就像我們背后要背一個(gè)非常巨大的電池包/ 能源包,而且能夠持續的時(shí)間很短。但是這幾年隨著(zhù)新能源汽車(chē)對電池技術(shù)的推動(dòng),電池的能量密度大幅提升?,F在一個(gè)較小的電池就可以支持較長(cháng)時(shí)間。這是一個(gè)非常重要的技術(shù)突破。
關(guān)于未來(lái)、5 年之后,這幾個(gè)方向可能還是重大突破的方向。
第一方面,人機交互,希望大模型能提供更長(cháng)程的任務(wù)規劃、做意圖的理解等方面。我們只要給它一個(gè)非常模糊的指令,它就可以輸出標準、自然的交互的結果。
第二方面,是在實(shí)施路徑的重規劃方面,一個(gè)重大、要攻克的方向是隨著(zhù)環(huán)境改變,希望機器人能夠實(shí)時(shí)改變執行策略等。
第三方面,在能量方面是持續要提升的,現在的執行效率跟人類(lèi)相比還是有非常大的差距。
注1:“機器人”來(lái)自捷克語(yǔ),作者將捷克語(yǔ)“Robota”寫(xiě)成了英語(yǔ)“Robot”。
注2:捷克語(yǔ)“Robota”是奴隸的意思,被當作“機器人”一詞的起源。該劇預告了機器人的發(fā)展對人類(lèi)社會(huì )的悲劇性影響,引起了人們的廣泛關(guān)注。
(本文來(lái)源于《EEPW》202410)
評論