深度強化學(xué)習大牛、UC伯克利教授Pieter Abbeel獲2021 ACM計算獎
AI 大牛吳恩達的學(xué)生、機器人學(xué)習專(zhuān)家、UC 伯克利教授 Pieter Abbeel 摘得了最新一屆 ACM 計算獎的榮譽(yù)。
剛剛,ACM 官方宣布將 2021 ACM 計算獎(ACM Prize in Computing)授予加州大學(xué)伯克利分校教授 Pieter Abbeel,以表彰他在機器人學(xué)習方面的貢獻,包括從演示中學(xué)習和用于機器人控制的深度強化學(xué)習。
在獲獎公告中,ACM 提到:「Abbeel 率先教會(huì )機器人從人類(lèi)演示中學(xué)習(學(xué)徒學(xué)習)和通過(guò)自己的反復試錯學(xué)習(強化學(xué)習),這為下一代機器人技術(shù)奠定了基礎。」
ACM 計算獎設立于 2007 年,由 IT 巨頭 Infosys 贊助,獎金為 25 萬(wàn)美元,旨在表彰在職業(yè)生涯早期到中期在計算領(lǐng)域做出基本創(chuàng )新貢獻的研究者,這些貢獻通過(guò)其深度和廣泛的影響體現了該學(xué)科的最高成就。
過(guò)往獲獎?wù)甙ü雀?AI 負責人 Jeff Dean、AlphaGo 之父 David Silver、量子計算先驅 Scott Aaronson 等著(zhù)名計算機科學(xué)家。
Abbeel 將于今年 6 月 11 日在舊金山舉行的 ACM 年度頒獎晚宴上正式獲頒 ACM 計算獎。
伯克利大牛 Pieter Abbeel 的研究貢獻
Pieter Abbeel 現為加州大學(xué)伯克利分校計算機科學(xué)與電氣工程教授,也是人工智能機器人公司 Covariant 的聯(lián)合創(chuàng )始人、總裁兼首席科學(xué)家。Abbeel 在比利時(shí)魯汶大學(xué)獲得電氣工程學(xué)士學(xué)位,并在斯坦福大學(xué)獲得計算機科學(xué)碩士和博士學(xué)位(師從吳恩達)。
Abbeel 曾獲得多項榮譽(yù),包括美國科學(xué)家及工程師總統早期職業(yè)獎、美國國家科學(xué)基金會(huì )早期職業(yè)發(fā)展計劃獎和 Diane McEntyre 卓越教學(xué)獎。此外,Abbeel 還被 MIT Technology Review 評為 35 歲以下杰出青年創(chuàng )新者,并獲得了機器人與自動(dòng)化領(lǐng)域的 Dick Volz 最佳美國博士論文獎。同時(shí),Abbeel 也是 IEEE Fellow。
在職業(yè)生涯的早期,Abbeel 開(kāi)發(fā)了新的學(xué)習技術(shù),以顯著(zhù)改善機器人操作。隨著(zhù)該領(lǐng)域的成熟,研究人員能夠對機器人進(jìn)行編程,以使其感知、操縱木塊或勺子等剛性物體。然而,通過(guò)編程讓機器人操縱可變形物體(例如布)相對來(lái)說(shuō)較為困難,因為軟性材料在被觸摸時(shí)的移動(dòng)方式是不可預測的。Abbeel 引入了增強機器人視覺(jué)感知、基于物理的跟蹤、控制和從演示中學(xué)習的新方法。通過(guò)結合這些新方法,Abbeel 開(kāi)發(fā)了一種能夠折疊毛巾和襯衫等衣服的機器人,這在當時(shí)被認為是一個(gè)重要的里程碑。
Abbeel 的貢獻還包括開(kāi)發(fā)能進(jìn)行手術(shù)縫合、物體檢測以及在不確定環(huán)境下規劃軌跡的機器人。最近,他開(kāi)創(chuàng )了「少樣本模仿學(xué)習」,即先讓機器人接受大量相關(guān)任務(wù)演示的預訓練,然后使其僅通過(guò)一次演示就學(xué)會(huì )執行一項任務(wù)。
Abbeel 做出重要貢獻的另一個(gè)方向是機器人深度強化學(xué)習。強化學(xué)習是機器學(xué)習的一個(gè)領(lǐng)域,在該領(lǐng)域中,智能體在獎勵的驅動(dòng)下不斷前進(jìn)(比如贏(yíng)得一場(chǎng)比賽)。雖然早期的強化學(xué)習程序非常有效,但它們只能執行簡(jiǎn)單的任務(wù)。將強化學(xué)習與深度神經(jīng)網(wǎng)絡(luò )相結合的創(chuàng )新之舉催生了深度強化學(xué)習這一新領(lǐng)域。與僅使用強化學(xué)習開(kāi)發(fā)的程序相比,它可以解決復雜得多的問(wèn)題。
Abbeel 在該領(lǐng)域的突破性貢獻是開(kāi)發(fā)了一種名為「信賴(lài)域策略?xún)?yōu)化(Trust Region Policy Optimization)」的深度強化學(xué)習方法。這種方法穩定了強化學(xué)習過(guò)程,使機器人能夠學(xué)習一系列模擬的控制技能。通過(guò)分享研究結果、發(fā)布視頻教程以及發(fā)布開(kāi)源代碼,Abbeel 幫助建立了一個(gè)研究社區,進(jìn)一步推動(dòng)了用于機器人的深度學(xué)習研究,可以讓機器人執行更復雜的任務(wù)。
Abbeel 還做出了其他幾項開(kāi)創(chuàng )性的貢獻,包括:
generalized advantage estimation,這使得第一個(gè) 3D 機器人運動(dòng)學(xué)習成為可能;
soft-actor critic,這是迄今為止最流行的深度強化學(xué)習算法之一;
domain randomization,它展示了在適當隨機化的模擬器中進(jìn)行的學(xué)習如何能夠很好地泛化到現實(shí)世界;
hindsight experience replay,這對獎勵稀疏 / 目標導向的環(huán)境中的深度強化學(xué)習很有幫助。
ACM 主席 Gabriele Kotsis 表示:「教機器人學(xué)習可以推動(dòng)許多行業(yè)的重大進(jìn)步,包括手術(shù)、制造、航運、自動(dòng)駕駛等。Pieter Abbeel 是新一代研究人員中公認的引領(lǐng)者,他們正在利用最新的機器學(xué)習技術(shù)徹底改變這一領(lǐng)域。Abbeel 做出了跨越式的研究貢獻,同時(shí)還慷慨地分享了他的知識,建立了一個(gè)同行社區,致力于將機器人提升到令人興奮的新能力水平。他的工作體現了 ACM 計算獎旨在表彰具有『深度、影響力和廣泛影響』的杰出工作的初衷?!?/span>
Infosys 首席執行官 Salil Parekh 表示:「很榮幸能表彰 Pieter Abbeel 獲得 2021 年 ACM 計算獎,隨著(zhù)機器人與人工智能相結合的創(chuàng )新方式不斷涌現,機器人領(lǐng)域有望取得更大的進(jìn)步,我們相信像 Abbeel 這樣的研究人員將有助于該領(lǐng)域取得下一個(gè)重大進(jìn)展?!?/span>
獲獎后,Pieter Abbeel 在社交媒體上表示:「我感到無(wú)比榮幸。非常感謝所有讓這一切成為可能的合作者,感謝我的學(xué)生、同事、碩士及博士階段的導師?!?/span>
參考鏈接:https://awards.acm.org/about/2021-acm-prize
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。