<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > 強化學(xué)習機器人也有很強環(huán)境適應能力,伯克利AI室驗室賦能元訓練+在線(xiàn)自適應

強化學(xué)習機器人也有很強環(huán)境適應能力,伯克利AI室驗室賦能元訓練+在線(xiàn)自適應

作者: 時(shí)間:2019-05-20 來(lái)源:雷鋒網(wǎng) 收藏
編者按:人類(lèi)可以輕易地適應環(huán)境的變化,但機器在適應力方面卻表現得一般,要如何讓機器像人一樣能夠快速適應現實(shí)世界呢?

在現實(shí)生活中,人類(lèi)可以輕易地適應環(huán)境的變化,但機器人在適應力方面卻表現得一般,要如何讓機器人像人一樣能夠快速適應現實(shí)世界呢?加州大學(xué)伯克利分校實(shí)驗室 BAIR 近期介紹了自己研究具有很高的環(huán)境適應能力的機器人的最新成果,雷鋒網(wǎng)全文編譯如下。

本文引用地址:http://dyxdggzs.com/article/201905/400667.htm

圖一【 圖片來(lái)源:BERKELEY BAIR  所有者:BERKELEY BAIR 】

人類(lèi)能夠無(wú)縫地適應環(huán)境的變化:成年人能夠在幾秒內學(xué)會(huì )拄拐走路;人們幾乎在瞬間可以撿起意料之外的重物體;不用重新學(xué)走路,兒童也能夠讓自己的步法快速適應從平地到上坡的轉變。這種適應力在現實(shí)世界中起著(zhù)很重要的作用。

另一方面,機器人通常被部署了固定行為(無(wú)論編碼還是學(xué)習),這讓它們在特定的環(huán)境中做的很好,但也導致了它們在其他方面做不好:系統故障、遇到陌生地帶或是碰上環(huán)境改變(比如風(fēng))、需要處理有效載荷或是其他意料之外的變化。BAIR 最新研究的想法是,在目前階段,預測和觀(guān)察之間的不匹配應該告訴機器人,讓它去更新它的模型,去更精確地描述現狀。舉個(gè)例子,當我們意識到我們的車(chē)在路上打滑時(shí)(如圖二),這會(huì )告知我們,我們的行為出現了意料之外的不同影響,因此,這讓我們相應地規劃我們后續的行動(dòng)。要讓機器人能夠更好地適應現實(shí)世界,就要讓它們能夠利用它們過(guò)去的經(jīng)驗,擁有快速地、靈活地適應的能力,這是重要的一點(diǎn)。為此,BAIR 開(kāi)發(fā)了一個(gè)基于模型的快速自適應元強化學(xué)習算法。

圖二【 圖片來(lái)源:BERKELEY BAIR  所有者:BERKELEY BAIR 】

快速適應

先前的工作使用的是試錯適應方法(Cully et al., 2015)以及自由模型的元強化學(xué)習方法(Wang et al., 2016; Finn et al., 2017),通過(guò)一些訓練,讓智能體去適應。然而,BAIR 研究人員的工作是要讓適應能力發(fā)揮到極致。人類(lèi)的適應不需要在新設置下體驗幾回,這種適應是在線(xiàn)發(fā)生的,僅在幾個(gè)時(shí)間步內(即毫秒),太快了以至于不能被注意到。

通過(guò)在基于模型學(xué)習設置中適應元學(xué)習(下文會(huì )討論),BAIR研究人員實(shí)現了這種快速適應。用于更新模型的數據應該在基于模型中設置,而不是根據推算過(guò)程中獲得的獎勵而進(jìn)行調整,根據近期經(jīng)驗,這些數據以模型預測錯誤的形式在每一個(gè)時(shí)間步長(cháng)中發(fā)揮作用。這個(gè)基于模型的方法能夠讓機器人利用僅有的少量近期數據,有意圖地更新模型。

方法概述

圖三【 圖片來(lái)源:BERKELEY BAIR  所有者:BERKELEY BAIR 】

BAIR研究人員的方法遵循圖三中的普適公式,利用對近期數據的觀(guān)察去自適應模型,類(lèi)似于自適應控制的總體框架(Sastry and Isidori, 1989; ?str?m and Wittenmark, 2013)。然而,真正的挑戰是,當模型是復雜的、非線(xiàn)性的、高容量的函數近似者(如神經(jīng)網(wǎng)絡(luò ))時(shí),模型該如何成功地自適應。為了進(jìn)行有意義的學(xué)習,神經(jīng)網(wǎng)絡(luò )需要很多數據,因此,在模型權重上實(shí)行SGD是無(wú)效的。

因此,通過(guò)在(元)訓練時(shí)間里明確地按照這個(gè)適應目標進(jìn)行培訓,能夠在測試的時(shí)候快速自適應,如下節所述。在多種不同設置的數據中進(jìn)行元訓練,一旦得到了一個(gè)善于自適應的先驗模型(權重用θ?來(lái)表示)之后,這個(gè)機器人就能夠在每個(gè)時(shí)間步內(圖三)根據這個(gè) θ?來(lái)適應,把先驗模型和當前的經(jīng)驗相結合,把它的模型調整到適合當前狀況的樣子,從而實(shí)現了快速在線(xiàn)自適應。

元訓練:

給定任意時(shí)間步長(cháng)t,我們處于st階段,我們在at時(shí)刻采取措施,根據底層動(dòng)力學(xué)函數st+1=f(st,at),我們最終將得到st+1的結果。對我們來(lái)說(shuō),真實(shí)的動(dòng)態(tài)是未知的,所以我們反而想要擬合一些學(xué)習過(guò)的動(dòng)力學(xué)模型s^t+1=fθ(st,at),通過(guò)觀(guān)察表單(st,at,st+1)的數據點(diǎn),做出盡可能好的預測。為了執行行為選擇,策劃者能夠利用這個(gè)評估過(guò)的動(dòng)態(tài)模型。

假定在首次展示過(guò)程中,任何細節和設置都能夠在任何時(shí)間步長(cháng)內發(fā)生改變,我們將把暫時(shí)接近的時(shí)間步看做能夠告訴我們近況的“任務(wù)”細節:在任何空間狀態(tài)下運行,持續的干擾,嘗試新的目標/獎勵,經(jīng)歷系統故障等等。因此,為了模型能夠在規劃上變成最有用的模型,BAIR研究人員想要利用近期觀(guān)察到的數據進(jìn)行首次更新。

在訓練時(shí)間里(圖四),這個(gè)總和是選擇一個(gè)連續的(M+K)數據點(diǎn)的序列,使用第一個(gè)M來(lái)更新模型權重,從θ到 θ′,然后優(yōu)化新的 θ′, 讓它擅長(cháng)為下一個(gè)K時(shí)間步預測狀態(tài)轉換。在利用過(guò)去K點(diǎn)的信息調整權重后,這個(gè)新表述的損失函數代表未來(lái)K點(diǎn)的預測誤差。

【 圖片來(lái)源:BERKELEY BAIR  所有者:BERKELEY BAIR 】

換句話(huà)說(shuō), θ不需要導致好的動(dòng)態(tài)預測。相反,它需要能夠使用具體任務(wù)的數據點(diǎn),將自身快速適應到新的權重中去,依靠這個(gè)新的權重得到好的動(dòng)態(tài)預測結果。有關(guān)此公式的更多直觀(guān)信息,可參閱MAML blog post。

圖四【 圖片來(lái)源:BERKELEY BAIR  所有者:BERKELEY BAIR 】

模擬實(shí)驗

BAIR研究人員在模擬機器人系統上進(jìn)行實(shí)驗,測試他們的方法在環(huán)境中適應瞬間變化的能力,并且在訓練環(huán)境之外,這種方法是否也能夠泛化。值得注意的是,BAIR研究人員對所有智能體進(jìn)行任務(wù)/環(huán)境分布的元訓練(詳見(jiàn)本文),但是研究人員在測試的時(shí)候評估了它們對未知的和不斷變化的環(huán)境的適應能力。圖五的獵豹機器人在不同隨機浮力的漂浮板上訓練,然后在一個(gè)水里具有不同浮力的漂浮板上進(jìn)行測試。這種環(huán)境表明不僅需要適應,還需要快速/在線(xiàn)適應。圖六通過(guò)一個(gè)有不同腿部殘疾的螞蟻機器人做實(shí)驗,也表明了在線(xiàn)適應的必要性,但是在首次展示的時(shí)候,一條看不見(jiàn)的腿半途發(fā)生了故障。在下面的定性結果中,BAIR研究人員將基于梯度的適應學(xué)習者(‘GrBAL’)和標準的基于模型的學(xué)習者(‘MB’)進(jìn)行比較,這個(gè)基于模型的學(xué)習者是在同樣的訓練任務(wù)變化但是沒(méi)有明確的適應機制中進(jìn)行訓練的。

圖五【 圖片來(lái)源:BERKELEY BAIR  所有者:BERKELEY BAIR 】

圖六【 圖片來(lái)源:BERKELEY BAIR  所有者:BERKELEY BAIR 】

這個(gè)基于模型的元強化學(xué)習方法的快速適應能力讓這個(gè)模擬機器人系統在表現和/或樣本效率方面相比之前的最好的方法取得了顯著(zhù)的提升,以及在這同一個(gè)方法的對照實(shí)驗中,有在線(xiàn)適應相比沒(méi)有在線(xiàn)適應、有元訓練相比沒(méi)有元訓練、有動(dòng)態(tài)模型相比沒(méi)有動(dòng)態(tài)模型,都可以看到系統表現和/或樣本效率的提升。這些定量比較的詳情可參閱論文。

硬件實(shí)驗

圖七①【 圖片來(lái)源:BERKELEY BAIR  所有者:BERKELEY BAIR 】

圖七②【 圖片來(lái)源:BERKELEY BAIR  所有者:BERKELEY BAIR 】

不僅要強調元強化學(xué)習方法的樣本效率,而且還要強調在現實(shí)世界中快速在線(xiàn)適應的重要性,BAIR研究人員在一個(gè)真實(shí)的動(dòng)態(tài)的有足微型機器人演示了這個(gè)方法(見(jiàn)圖七)。這個(gè)小型的6足機器人以高度隨機和動(dòng)態(tài)運動(dòng)的形式,展示了一個(gè)建模和控制的挑戰。這個(gè)機器人是一個(gè)優(yōu)秀的在線(xiàn)適應候選人,原因有很多:構造這個(gè)機器人使用了快速制造技術(shù)和許多定制設計步驟,這讓它不可能每次都復制相同的動(dòng)力學(xué),它的連桿機構和其他身體部位會(huì )隨著(zhù)時(shí)間的推移而退化,并且,它移動(dòng)的速度非???,并且會(huì )隨著(zhù)地形的變化而進(jìn)行動(dòng)態(tài)改變。

BAIR的研究人員們在多種不同的地形上元訓練了這個(gè)步行機器人,然后他們測試了這個(gè)智能體在線(xiàn)適應新任務(wù)(在運行的時(shí)候)的學(xué)習的能力,包括少了一條腿走直線(xiàn)任務(wù)、從未見(jiàn)過(guò)的濕滑地形和斜坡、位姿估計中帶有校正錯誤或誤差,以及首次讓它牽引載荷。在硬件實(shí)驗中,BAIR的研究人員們把他們的方法和兩個(gè)方法做了比較,1,標準的基于模型學(xué)習(‘MB’)的方法,這個(gè)方法既沒(méi)有自適應也沒(méi)有元學(xué)習;2,一個(gè)帶有適應能夠力的動(dòng)態(tài)評估模型(‘MB’+“DE”),但它的適應能力是來(lái)自非元學(xué)習得到的先驗。結果(圖8-10)表明,不僅需要適應力,而且需要從顯式的元學(xué)習得到的先驗進(jìn)行適應。

圖八【 圖片來(lái)源:BERKELEY BAIR  所有者:BERKELEY BAIR 】

圖九【 圖片來(lái)源:BERKELEY BAIR  所有者:BERKELEY BAIR 】

圖十【 圖片來(lái)源:BERKELEY BAIR  所有者:BERKELEY BAIR 】

通過(guò)有效地在線(xiàn)適應,在少了一條腿走直線(xiàn)的實(shí)驗中,BAIR的方法阻止了漂移,阻止了滑下斜坡,解釋了位姿錯誤校準,以及調整到牽引有效載荷。值得注意的是,這些任務(wù)/環(huán)境和在元訓練階段學(xué)習的運動(dòng)行為有足夠的共性,從先前的知識(不是從零開(kāi)始學(xué)習)中提取信息是有用的,但是他們的差異很大,需要有效的在線(xiàn)適應才能成功。

圖十一【 圖片來(lái)源:BERKELEY BAIR  所有者:BERKELEY BAIR 】

未來(lái)方向

通過(guò)使用元學(xué)習,這項工作能夠讓高容量神經(jīng)網(wǎng)絡(luò )動(dòng)態(tài)模型在線(xiàn)適應。從以前的元學(xué)習開(kāi)始,通過(guò)讓模型的局部微調,BAIR研究人員排除了對精確全球模型的需求,而且能夠快速適應到新情景中,例如意料之外的環(huán)境變化。盡管BAIR研究人員展現了模擬和硬件在不同任務(wù)中的適應結果,但是,仍存在許多相關(guān)的改進(jìn)途徑。

首先,雖然這種設置很強大,它總是從提前訓練的先驗中進(jìn)行微調,但這個(gè)方法有一個(gè)限制,就是即使看了幾遍這個(gè)新的設置,也會(huì )得到像第一次看到的同樣的表現。在后續工作中,BAIR研究人員將采取措施,精確地解決這個(gè)隨時(shí)間而變得嚴重的問(wèn)題,同時(shí)不要也因為試驗了新技能而忘記舊技能。

另一個(gè)提高的領(lǐng)域包含了制定條件或分析性能,以及適應的限制:鑒于前面所包含的知識,什么是能夠適應的?什么是不能夠適應的?舉個(gè)例子,兩個(gè)人正在學(xué)騎自行車(chē),誰(shuí)會(huì )突然在路面滑行呢?假定這兩個(gè)人之前都沒(méi)騎過(guò)自行車(chē),因此他們也不可能從自行車(chē)上摔下來(lái)過(guò)。在這個(gè)實(shí)驗中,第一個(gè)人A可能會(huì )摔倒,手腕受傷,然后需要進(jìn)行幾個(gè)月的物理治療。相反,另一個(gè)人B可能借鑒與他先前學(xué)過(guò)的武術(shù)知識,從而執行了一個(gè)良好的“跌倒”程序(也就是說(shuō),摔倒的時(shí)候翻滾背部來(lái)緩沖而不是嘗試用手腕來(lái)減弱下降的力量)。這就是一個(gè)實(shí)例,當這兩個(gè)人都在嘗試執行一項新任務(wù)的時(shí)候,那些他們先前知識中的其他經(jīng)驗會(huì )顯著(zhù)地影響他們適應嘗試的結果。因此,在現有的知識下,有某種機制來(lái)理解適應的局限性,應該會(huì )很有趣。


原論文地址:https://arxiv.org/abs/1803.11347(已被 ICLR 2019 接收)

項目主頁(yè):https://sites.google.com/berkeley.edu/metaadaptivecontrol

代碼開(kāi)源地址:https://github.com/iclavera/learning_to_adapt

雷鋒網(wǎng)注:本文編譯自BERKELEY BAIR

本文轉自雷鋒網(wǎng),如需轉載請至雷鋒網(wǎng)官網(wǎng)申請授權。

原文章地址為強化學(xué)習機器人也有很強環(huán)境適應能力,伯克利AI室驗室賦能元訓練+在線(xiàn)自適應



關(guān)鍵詞: 人工智能 AI機器人

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>