馬斯克的通用人形機器人招來(lái)群嘲,學(xué)者:先像人手一樣抓取吧
硅谷“鋼鐵俠”馬斯克又放大招:Tesla Bot——身高1.72米,體重56公斤,身材苗條,外形優(yōu)美。馬斯克在PPT上說(shuō),Tesla Bot的原型機(prototype)明年就要來(lái)了。不過(guò),外界的群嘲來(lái)得更快——知名科技媒體The Verge對此標題便是:《別想太多,馬斯克的Tesla Bot就是個(gè)笑話(huà)》。
本文引用地址:http://dyxdggzs.com/article/202108/427760.htm當下,從真實(shí)應用場(chǎng)景出發(fā)設計的機器人,執行抓取任務(wù)的的看起來(lái)像機械臂,能跑起來(lái)的四足機器人看起來(lái)像狗。即使強如波士頓動(dòng)力,設計出來(lái)的機器人Atlas也是手長(cháng)腿短,頭重腳輕——它身高150cm,體重86公斤,與其說(shuō)像人,不如說(shuō)像黑猩猩。
波士頓動(dòng)力家族機器人合影
Tesla Bot
波士頓動(dòng)力的Atlas可以5.4km/h的速度移動(dòng)。而Tesla Bot可以8km/h速度運動(dòng),這意味著(zhù)Tesla Bot不僅更好看,運動(dòng)性能還更好。另外,波士頓動(dòng)力的機器人是沒(méi)有手指的。而Tesla Bot則有一雙“美手”。
不僅外觀(guān)像人,馬斯克還想讓這個(gè)機器人像人一樣具有“通用智能”。一位卡內基梅隆大學(xué)的人工智能和機器人學(xué)博士接受澎湃新聞(www.thepaper.cn)采訪(fǎng)時(shí)表示:“現代的人工智能基于學(xué)習算法,但是目前在機器控制領(lǐng)域這些算法的效果還難以令人滿(mǎn)意,從這個(gè)角度說(shuō),一個(gè)可以在明年發(fā)布的‘通用’機器人肯定不會(huì )像人們期待的和終結者一樣先進(jìn)?!?/p>
這位卡內基梅隆大學(xué)的人工智能和機器人學(xué)博士表示,“從另外一個(gè)角度說(shuō),機器人領(lǐng)域的硬件和算法是高度相關(guān)的,在關(guān)節控制、手部精細操作、視覺(jué)信息理解等幾乎所有的技術(shù)細節上,現在的硬件層面上也有太多要攻克的難題。在現在的學(xué)術(shù)界和業(yè)界發(fā)展狀況下,‘特斯拉能否在明年發(fā)布一個(gè)通用人形人工智能機器人’還不應該是一個(gè)可以被嚴肅討論的問(wèn)題。除非特斯拉重新定義了‘通用人形人工智能機器人’。不過(guò)在嚴肅的科研攻關(guān)和學(xué)術(shù)討論之外,馬斯克把這些技術(shù)領(lǐng)域的愿景帶入公眾的視野,從星鏈計劃、完全自動(dòng)駕駛到移民火星,都是如此。我覺(jué)得長(cháng)期來(lái)看這種技術(shù)討論的大眾化是有他的正面作用的?!?/p>
其實(shí),就運動(dòng)能力來(lái)說(shuō),要在一年內做出已經(jīng)很難。工程類(lèi)知名學(xué)術(shù)期刊IEEE Spectrum的Evan Ackerman表示,“像波士頓動(dòng)力公司和敏捷機器人公司這樣的公司幾十年來(lái)一直在研究可以在人類(lèi)環(huán)境中導航的機器人,但這仍然是一個(gè)非常困難的問(wèn)題。我不知道為什么馬斯克認為他可以突然做得更好?!?/p>
CNN(美國有線(xiàn)電視新聞網(wǎng),Cable News Network)稱(chēng)伊隆·馬斯克又向其長(cháng)長(cháng)的‘明年’就發(fā)布清單中增加了一項(標題為《Elon Musk just added a robot to his list of things always coming'next year.'For now he's got a guy in a suit》)。報道中指出,雖然馬斯克在特斯拉和SpaceX中的工作顛覆了汽車(chē)和航天業(yè),但他也以錯過(guò)最后期限和過(guò)度承諾聞名。
彭博社分析,馬斯克常常在僅僅有原型的時(shí)候就公開(kāi)產(chǎn)品——基本是在一個(gè)想法成為實(shí)際產(chǎn)品前就售賣(mài)它。2017年的11月,特斯拉公開(kāi)了他們的Semi卡車(chē),但該車(chē)最早要被推遲到2022年上市,部分原因是制造更大的電池面臨挑戰。華爾街風(fēng)投機構Loup Ventures知名分析師Gene Munster表示,“伊隆有遠大的愿景。對投資者來(lái)說(shuō),特斯拉機器人是他們可以發(fā)揮想象的新事物,D1芯片更具實(shí)質(zhì)意義,但對于大多數投資者來(lái)說(shuō)卻很無(wú)聊?!?/p>
當天現場(chǎng),特斯拉CEO馬斯克通過(guò)幾張PPT介紹了Tesla Bot的基本情況:機器人面部是一個(gè)顯示屏,顯示屏背后是多個(gè)攝像頭,手部達到人類(lèi)水平(Human-level hands)。
機器人面部配備了特斯拉在自動(dòng)駕駛中使用的Autopilot攝像頭充當感知系統,胸腔里內置FSD自研芯片。Tesla Bot可以8km/h的速度運動(dòng),提起約20公斤的重物,有約68公斤的硬舉能力。特斯拉已有的多攝像頭神經(jīng)網(wǎng)絡(luò )、規劃能力、標記能力都會(huì )應用到Tesla Bot中。
馬斯克在8月20日的特斯拉AI日上稱(chēng),Tesla Bot將用來(lái)處理“無(wú)聊、重復和危險的工作”,比如讓機器人幫忙跑雜貨店拿東西,目標將是用于通用機器人的人工智能技術(shù)。在他們的計劃中,Tesla bot將會(huì )達到和人類(lèi)的尺寸以及重量相近的物理特性,并且會(huì )具有用于自動(dòng)駕駛的相機系統和計算單元。
馬斯克簡(jiǎn)短介紹完Tesla bot不久之后,一位形似日本超級變變變的演員穿著(zhù)緊身衣就在舞臺上尬舞起來(lái),除了開(kāi)頭登臺是機械舞,之后不知道是什么舞蹈。馬斯克笑著(zhù)說(shuō),“演員不是真正的機器人,但特斯拉機器人將是真實(shí)的?!睂τ谔厮估Q(chēng)的將于明年發(fā)布Tesla Bot的前景如何,上海交通大學(xué)副教授馬道林在接受澎湃新聞(www.thepaper.cn)采訪(fǎng)時(shí)表示,發(fā)布機器人硬件樣機本身,一定可以實(shí)現。真正的難度在于這個(gè)機器人能做什么,而對于這方面特斯拉并沒(méi)有承諾什么?!拔覀€(gè)人覺(jué)得他們是開(kāi)了一條嶄新的任務(wù)線(xiàn),馬斯克口中承諾的是一年后拿出Tesla Bot樣機(Prototype)。通常樣機的核心功能是做概念驗證,并不會(huì )期待它能真的去執行多么復雜的任務(wù)。在前期積累的基礎上經(jīng)過(guò)未來(lái)一年的持續研發(fā),我猜測,他們拿出來(lái)的應該是一款可以慢慢走并和觀(guān)眾招招手、點(diǎn)點(diǎn)頭和顯示笑臉的產(chǎn)品?!?/p>
馬道林進(jìn)一步解釋?zhuān)厮估募夹g(shù)長(cháng)處除了硬件制造之外,很大程度在于基于人工智能的導航(Navigation)能力,特斯拉會(huì )將自動(dòng)駕駛汽車(chē)所具備的對周?chē)h(huán)境的三維重建和感知以及決策能力移植到機器人上。
“在能做什么方面,我估計他們一定會(huì )突出導航和移動(dòng)能力,比如說(shuō)通過(guò)讓機器人所在的房間或商店很復雜來(lái)展示他們強大的導航能力,而弱化甚至于不展示操作能力?!瘪R道林預計,“理想情況下,明年的demo會(huì )正如馬斯克所舉例的那樣,演示人員說(shuō)‘去某某地方把某某物品拿給我’,Tesla Bot通過(guò)語(yǔ)音識別理解了這一任務(wù),導航并走到那里,以簡(jiǎn)單的方式拿到物品并送到演示人員面前。演示結束?!?/p>
一位在機器人和人工智能領(lǐng)域發(fā)表了多篇高影響力論文的機器人抓取和操控(Grasping and manipulation)領(lǐng)域的資深研究者向澎湃新聞(www.thepaper.cn)表示:“從物體抓取操作(grasping/manipulation)的角度來(lái)說(shuō),基于五指的算法都還不成熟,機器人領(lǐng)域的算法都是跟機械結構適配的,連硬件都沒(méi)有的時(shí)候,對相關(guān)算法的討論是沒(méi)法進(jìn)行的。我不認為T(mén)esla在明年可以發(fā)布人們期待的通用人形機器人,馬斯克的這個(gè)項目很可能會(huì )一直擱置下去?!?/p>
“只能說(shuō)那是一種愿景,人類(lèi)覺(jué)得一個(gè)足夠智能的機器人應該可以被造的和人外觀(guān)類(lèi)似,但是為了實(shí)現這個(gè)目標,需要做的還有很多。另外,為了讓他‘像人’有時(shí)候需要付出額外的努力,現在在傳感器、感知算法、控制算法、機器人硬件等領(lǐng)域的差距還很遠。馬斯克在發(fā)布會(huì )上沒(méi)有介紹相關(guān)細節,我只能從我了解的情況判斷,明年發(fā)布的機會(huì )應該是不大的,或者說(shuō)可以發(fā)布的東西和一些公眾基于科幻做出的想象是有很大落差的,”一位美國頂尖大學(xué)機器人領(lǐng)域教授表示。
雖然對于特斯拉所說(shuō)的能在明年發(fā)布通用人形機器人并不看好,但馬道林認為,“不管怎么說(shuō),更多的大型科技公司進(jìn)入機器人領(lǐng)域,利用其強大的工程和制造能力刷新硬件制造的海平面,對這一領(lǐng)域的研究和發(fā)展都是很好的事情,讓我們拭目以待吧!”
馬道林本科和博士畢業(yè)于北京大學(xué),后進(jìn)入麻省理工學(xué)院進(jìn)行博士后研究,并于去年加入上海交通大學(xué)船舶海洋與建筑工程學(xué)院擔任副教授。馬教授的論文“基于觸覺(jué)測量的相對運動(dòng)跟蹤和外部接觸感知”(Extrinsic Contact Sensing with Relative-Motion Tracking from Distributed Tactile Measurements)于今年的機器人領(lǐng)域頂級會(huì )議ICRA上獲得最佳論文獎。
以下為馬道林接受澎湃新聞采訪(fǎng)實(shí)錄:
澎湃新聞:周五的Tesla AI Day中,馬斯克表示,將“自動(dòng)駕駛”和其他技術(shù)結合,遷移到人形機器人身上是順理成章的。您認同這個(gè)通往通用人形機器人的路徑么?相較于自動(dòng)駕駛等技術(shù),實(shí)現人形機器人的獨有的難點(diǎn)有哪些?
馬道林:特斯拉,是一家智能設備硬件科技公司,這個(gè)通往通用人形機器人的路徑,我的理解,一是特斯拉有優(yōu)秀的硬件工程師和一流的加工工廠(chǎng),他們擅長(cháng)去制造機器人所需的電池、驅動(dòng)電機、傳感器等硬件,這些公司運用已知技術(shù)做起硬件迭代來(lái)可以遠遠比大學(xué)實(shí)驗室更強大;二是,特斯拉有在自動(dòng)駕駛領(lǐng)域積累的強大的人工智能計算硬件和算法基礎,特斯拉自動(dòng)駕駛汽車(chē)所具備的基于視覺(jué)對周?chē)h(huán)境的重建和感知能力,可以輕松地移植到機器人上,去輔助機器人的導航和決策。三是,技術(shù)之外,特斯拉現在很有錢(qián),而且在全球新能源政策走向的支持下,未來(lái)也十分看好,不差錢(qián),對他們來(lái)說(shuō),燒點(diǎn)錢(qián)做些高風(fēng)險但有很大媒體關(guān)注度的事情,應該挺劃算。
從學(xué)術(shù)界的進(jìn)展來(lái)看,人形機器人的難點(diǎn)還是很多的。一方面是硬件設計方面,雖然波士頓動(dòng)力已經(jīng)展示了很強大的硬件設計,但世界上似乎還沒(méi)有另外一家公司的人形機器人能接近波士頓動(dòng)力。雖然人們早就知道如何去實(shí)現幾十個(gè)關(guān)節的運動(dòng)結構設計,但是在驅動(dòng)方面,有著(zhù)大量的工程和技術(shù)挑戰,這幾十個(gè)關(guān)節所需要的驅動(dòng)器有多種不同大小或規格,在許多關(guān)節處的驅動(dòng)結構在結構體積受到限制的情況下還要滿(mǎn)足扭矩和速度方面的苛刻需求,難度不小。波士頓動(dòng)力在液壓驅動(dòng)方面的造詣恐怕是其他公司所望塵莫及的。而另一方面是運動(dòng)平衡。和四足機器人不同的是,人形機器人兩條腿在運動(dòng)中需要兩條腿交替支撐,一旦其中一條腿的節拍跟不上就會(huì )摔倒。因此人形機器人更多地要在運動(dòng)中實(shí)現自身的動(dòng)態(tài)平衡,而在移動(dòng)或執行操作任務(wù)中保持如此復雜多體系統的動(dòng)態(tài)順滑的自平衡,是很有挑戰性的規劃和控制問(wèn)題。2015年Darpa機器人挑戰賽中機器人屢屢跌倒的現狀給許多人留下了深刻的印象。
澎湃新聞:目前對人形機器人一個(gè)很重要的期待是手部的精細操作,這和馬老師你在機器觸覺(jué)領(lǐng)域的研究息息相關(guān)。今年您在ICRA上獲得的best paper也是這個(gè)領(lǐng)域的成果,請問(wèn)這個(gè)領(lǐng)域目前的困難有哪些呢?
馬道林:前面還只是說(shuō)了人形機器人的移動(dòng)或運動(dòng)問(wèn)題,要讓人形機器人對人類(lèi)有用,很大程度上要依賴(lài)于解決機械手精細操作或者說(shuō)靈巧操作問(wèn)題。把機械手靈巧操作作為一個(gè)獨立的機器人子系統來(lái)理解的話(huà),要解決的問(wèn)題要包含硬件驅動(dòng),傳感與感知,以及規劃與控制這三個(gè)方面。其中,硬件設計是基礎,也是相對來(lái)說(shuō)最容易理解并進(jìn)行仿生設計的部分;但另外的兩個(gè)方面則還困難重重。
對于傳感和感知部分。我們今年在ICRA上發(fā)表的工作,是解決了觸覺(jué)傳感和感知方面的一個(gè)重要問(wèn)題,實(shí)現了對手中物體運動(dòng)狀態(tài)的精確跟蹤和對物體外部接觸的定位感知,我們期待在未來(lái)的工作中將觸覺(jué)感知和與現在業(yè)已取得巨大進(jìn)展的視覺(jué)傳感和感知相結合,為機器人操作提供較為完備的感知信息。
而對于精細操作所需的規劃和控制,相對于人們的期待,目前大家的研究還只是嬰兒階段,有相當長(cháng)的路要走。這里面的挑戰既有硬件不完備帶來(lái)的研究限制,更有來(lái)自于操作問(wèn)題本身的難度。首先,機器人操作要解決的問(wèn)題是通過(guò)對機械手自身的控制,調節手中物體與外界(各種并不規則的)環(huán)境的接觸行為,以實(shí)現物體位姿或物體與環(huán)境相互關(guān)系的改變,在問(wèn)題復雜度上顯著(zhù)高于機器人行走問(wèn)題。其次是機器人操作的任務(wù)包羅萬(wàn)象,從研究的角度也很難找到一個(gè)操作任務(wù)去代表所有任務(wù),難以找到理想的benchmark問(wèn)題并攻關(guān)解決。最后,機器人操作,非常關(guān)鍵的是各種操作中接觸行為的理解和利用。多關(guān)節的手指、手掌以及外部環(huán)境,甚至于胳膊和身體等,處處都可以和物體發(fā)生接觸,需要理解和預測這些接觸行為對物體運動(dòng)狀態(tài)的影響并妥善加以合理利用,這是非常復雜和困難的規劃任務(wù)。而且,在這些規劃和控制中,還要與我們前面提到的觸覺(jué)傳感和感知能力以及視覺(jué)傳感和感知能力相結合,才可以形成完整的控制閉環(huán)。
澎湃新聞:特斯拉給出了在一年內發(fā)布“通用人形機器人”Tesla bot的時(shí)間表,您覺(jué)得這么短的時(shí)間內完成這個(gè)目標是可能的么?
馬道林:我個(gè)人覺(jué)得他們是開(kāi)了一條嶄新的任務(wù)線(xiàn)。馬斯克口中承諾的是一年后拿出Tesla Bot樣機(Prototype)。通常樣機的核心功能是做概念驗證,并不會(huì )期待它能真的去執行多么復雜的任務(wù)。在前期積累的基礎上經(jīng)過(guò)未來(lái)一年的持續研發(fā),我猜測,他們拿出來(lái)的應該是一款可以慢慢走并和觀(guān)眾招招手、點(diǎn)點(diǎn)頭和顯示笑臉的產(chǎn)品。特斯拉的技術(shù)長(cháng)處除了硬件制造之外,很大程度在于基于人工智能的Navigation能力,也就是導航,特斯拉會(huì )將自動(dòng)駕駛汽車(chē)所具備的對周?chē)h(huán)境的三維重建和感知以及決策能力移植到機器人上。我預計,理想情況下,明年的demo會(huì )正如馬斯克所舉例的那樣,演示人員說(shuō)“**,去某某地方把某某物品拿給我”,Tesla Bot通過(guò)語(yǔ)音識別理解了這一任務(wù)只會(huì ),導航并走到那里,以簡(jiǎn)單的方式拿到物品并送到演示人員面前。演示結束。
所以,發(fā)布機器人硬件樣機本身,是一定可以實(shí)現的。因為問(wèn)題的真正難度在于這個(gè)機器人能做什么事,特斯拉也沒(méi)有承諾什么。在這方面,我估計他們一定會(huì )突出導航和移動(dòng)能力,,比如說(shuō)通過(guò)讓機器人所在的房間或商店很復雜來(lái)展示他們強大的導航能力,而弱化甚至于不展示操作能力。但不管怎么說(shuō),更多的大型科技公司進(jìn)入機器人領(lǐng)域,利用其強大的工程和制造能力刷新硬件制造的海平面,對這一領(lǐng)域的研究和發(fā)展都是很好的事情,讓我們拭目以待吧!
評論