<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > DeepMind 的新強化學(xué)習系統是邁向通用 AI 的一步嗎?

DeepMind 的新強化學(xué)習系統是邁向通用 AI 的一步嗎?

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2021-10-18 來(lái)源:工程師 發(fā)布文章

來(lái)源 | 數據實(shí)戰派

這篇文章是我們對 AI 研究論文評論的一部分,這是一系列探索人工智能最新發(fā)現的文章。

對于已經(jīng)精通圍棋、星際爭霸 2 和其他游戲的深度強化學(xué)習模型來(lái)說(shuō),人工智能系統的主要挑戰之一是它們無(wú)法將其能力泛化到訓練領(lǐng)域之外。這種限制使得將這些系統應用到現實(shí)世界中變得非常困難,在現實(shí)世界中,情況比訓練 AI 模型的環(huán)境復雜得多且不可預測。

最近,DeepMind 人工智能研究實(shí)驗室的科學(xué)家根據一篇新的“開(kāi)放式學(xué)習”倡議的博客文章中,聲稱(chēng)已經(jīng)采取了“初步來(lái)訓練一個(gè)能夠在不需要人類(lèi)交互數據的情況下,玩許多不同游戲的代理”。他們的新項目包括一個(gè)具有真實(shí)動(dòng)態(tài)的 3D 環(huán)境和可以學(xué)習解決各種挑戰的深度強化學(xué)習代理。

根據 DeepMind 的人工智能研究人員的說(shuō)法,新系統是“創(chuàng )建更通用的代理邁出的重要一步,該代理具有在不斷變化的環(huán)境中快速適應的靈活性?!?/p>

該論文的發(fā)現表明,在將強化學(xué)習應用于復雜問(wèn)題方面取得了一些令人印象深刻的進(jìn)步。但它們也提醒人們,當前的系統距離實(shí)現人工智能社區幾十年來(lái)直夢(mèng)寐以求的通用智能能力還有多遠。

深度強化學(xué)習的脆弱性

1.jpg

強化學(xué)習的主要優(yōu)勢在于可以在執行動(dòng)作和獲得反饋來(lái)發(fā)展行為的能力,類(lèi)似于人類(lèi)和動(dòng)物通過(guò)與環(huán)境互動(dòng)來(lái)學(xué)習的方式類(lèi)似。一些科學(xué)家將強化學(xué)習描述為“首個(gè)智能計算理論”。

強化學(xué)習和深度神經(jīng)網(wǎng)絡(luò )的結合,稱(chēng)為深度強化學(xué)習,是包括 DeepMind 著(zhù)名的 AlphaGo 和 AlphaStar 模型在內的許多強化 AI 的核心。在這兩種情況下,人工智能系統都能夠在各自的比賽中擊敗人類(lèi)世界冠軍。

但強化學(xué)習系統的靈活性不足也是眾所周知的缺陷。例如,可以在專(zhuān)家級別玩星際爭霸 2 的強化學(xué)習模型將無(wú)法在任何能力級別玩具有類(lèi)似機制的游戲(例如,魔獸爭霸 3)。即使對原始游戲稍有改動(dòng),也會(huì )大大降低 AI 模型的性能。

“這些智能體通常被限制只能玩他們接受過(guò)訓練的游戲,雖然游戲的布局、初始條件、對手可能會(huì )變化,智能體必須滿(mǎn)足的目標在訓練和測試之間保持不變。偏離這一點(diǎn)可能會(huì )導致代理的災難性失敗,”DeepMind 的研究人員在一篇論文中寫(xiě)道,該論文提供了有關(guān)其開(kāi)放式學(xué)習的全部細節。另一方面,人類(lèi)非常擅長(cháng)跨領(lǐng)域轉移知識。


XLand 環(huán)境

2.jpgDeepMind 新項目的目標是創(chuàng )建“一個(gè)人工智能,其行為的概括超出了它所訓練的游戲集?!?/p>

為此,該團隊創(chuàng )建了 XLand,這是一個(gè)可以生成由靜態(tài)拓撲和可移動(dòng)對象組成的 3D 環(huán)境的引擎。游戲引擎模擬了剛體物理學(xué),并允許玩家以各種方式使用對象(例如,創(chuàng )建斜坡、塊路徑等)。

XLand 是一個(gè)豐富的環(huán)境,可以在其中訓練代理執行幾乎無(wú)限數量的任務(wù)。XLand 的主要優(yōu)勢之一是能夠使用程序化規則自動(dòng)生成大量環(huán)境和挑戰來(lái)訓練 AI 代理。這解決了機器學(xué)習系統的主要挑戰之一,該系統通常需要大量手動(dòng)策劃的訓練數據。

根據博客文章,研究人員“在 XLand 中創(chuàng )建了數十億個(gè)任務(wù),跨越不同的游戲、世界和玩家?!边@些游戲包括非常簡(jiǎn)單的目標,例如在更復雜的設置中尋找對象,其中 AI 代理會(huì )權衡不同獎勵的收益和權衡。一些游戲包括涉及多個(gè)代理的合作或競爭元素。


深度強化學(xué)習

DeepMind 使用深度強化學(xué)習和一些聰明的技巧來(lái)創(chuàng )建可以在 XLand 環(huán)境中茁壯成長(cháng)的 AI 代理。

每個(gè)代理的強化學(xué)習模型接收世界的第一人稱(chēng)視角、代理的物理狀態(tài)(例如,是否持有對象)及其當前目標。每個(gè)代理微調其策略神經(jīng)網(wǎng)絡(luò )的參數,以最大限度地提高當前任務(wù)的回報。神經(jīng)網(wǎng)絡(luò )架構包含一個(gè)注意力機制,以確保代理可以平衡完成主要目標所需的子目標的優(yōu)化。

一旦代理掌握了當前的挑戰,計算任務(wù)生成器就會(huì )為代理創(chuàng )建一個(gè)新的挑戰。每個(gè)新任務(wù)都是根據代理的訓練歷史生成的,并有助于在各種挑戰中分配代理的技能。 

DeepMind 還使用其龐大的計算資源對大量代理進(jìn)行并行培訓,并在不同的代理之間傳輸學(xué)習參數,以提高強化學(xué)習系統的一般能力。

3.jpg

DEEPMind使用多步驟和基于人群的機制來(lái)培訓許多強化學(xué)習代理

強化學(xué)習代理的性能是根據它們完成未經(jīng)訓練的各種任務(wù)的一般能力來(lái)評估的。一些測試任務(wù)包括眾所周知的挑戰,例如“奪旗”和“捉迷藏”。

根據 DeepMind 的說(shuō)法,每個(gè)代理在 XLand 的 4,000 個(gè)獨特世界中玩了大約 700,000 個(gè)獨特的游戲,并在 340 萬(wàn)個(gè)獨特任務(wù)中經(jīng)歷了 2000 億個(gè)訓練步驟(在論文中,研究人員寫(xiě)道,1 億個(gè)步驟相當于大約 30 分鐘的訓練) .

AI 研究人員寫(xiě)道:“此時(shí),我們的代理已經(jīng)能夠參與每一個(gè)程序生成的評估任務(wù),除了少數甚至對人類(lèi)來(lái)說(shuō)都是不可能的?!?“而且我們看到的結果清楚地展示了整個(gè)任務(wù)空間的一般零樣本行為?!?/p>

零樣本機器學(xué)習模型可以解決訓練數據集中不存在的問(wèn)題。在 XLand 等復雜空間中,零樣本學(xué)習可能意味著(zhù)代理已經(jīng)獲得了有關(guān)其環(huán)境的基本知識,而不是記住特定任務(wù)和環(huán)境中的圖像幀序列。

當研究人員試圖為新任務(wù)調整它們時(shí),強化學(xué)習代理進(jìn)一步表現出廣義學(xué)習的跡象。根據他們的發(fā)現,對新任務(wù)進(jìn)行 30 分鐘的微調,足以在使用新方法訓練的強化學(xué)習代理中產(chǎn)生令人印象深刻的改進(jìn)。相比之下,在相同時(shí)間內從頭開(kāi)始訓練的代理在大多數任務(wù)上的性能接近于零。


高級行為

根據 DeepMind 的說(shuō)法,強化學(xué)習代理表現出“啟發(fā)式行為”的出現,例如工具使用、團隊合作和多步計劃。如果得到證實(shí),這可能是一個(gè)重要的里程碑。深度學(xué)習系統經(jīng)常因學(xué)習統計相關(guān)性而不是因果關(guān)系而受到批評。如果神經(jīng)網(wǎng)絡(luò )能夠開(kāi)發(fā)出高級概念,例如使用對象來(lái)創(chuàng )建斜坡或導致遮擋,它可能會(huì )對機器人和自動(dòng)駕駛汽車(chē)等領(lǐng)域產(chǎn)生重大影響,而這些領(lǐng)域目前深度學(xué)習正在苦苦掙扎。

但這些都是重要的假設,DeepMind 的研究人員對就他們的發(fā)現得出結論持謹慎態(tài)度。他們在博文中寫(xiě)道:“鑒于環(huán)境的性質(zhì),很難確定意圖——我們看到的行為經(jīng)??雌饋?lái)是偶然的,但我們仍然看到它們始終如一地發(fā)生?!?/p>

但是他們相信他們的強化學(xué)習代理“了解他們身體的基本知識和時(shí)間的流逝,并且他們了解他們遇到的游戲的高級結構?!?/p>

這種基本的自學(xué)技能是人工智能社區備受追捧的另一個(gè)目標。


智力理論

4.jpg

DeepMind 的一些頂尖科學(xué)家最近發(fā)表了一篇論文,其中他們假設單一獎勵和強化學(xué)習足以最終實(shí)現通用人工智能 (AGI)??茖W(xué)家們認為,一個(gè)具有正確激勵機制的智能代理可以開(kāi)發(fā)各種能力,例如感知和自然語(yǔ)言理解。

盡管 DeepMind 的新方法仍然需要在多個(gè)工程獎勵上訓練強化學(xué)習代理,但這符合他們通過(guò)強化學(xué)習實(shí)現 AGI 的一般觀(guān)點(diǎn)。

Pathmind 的首席執行官 Chris Nicholson 告訴 TechTalks:“DeepMind 在這篇論文中表明,單個(gè) RL 代理可以開(kāi)發(fā)智能以實(shí)現多個(gè)目標,而不僅僅是一個(gè)目標,” “它在完成一件事時(shí)學(xué)到的技能可以推廣到其他目標。這與人類(lèi)智能的應用方式非常相似。例如,我們學(xué)習抓取和操縱物體,這是實(shí)現從敲錘子到鋪床的目標的基礎?!?/p>

Nicholson 還認為,該論文發(fā)現的其他方面暗示了通向智能的進(jìn)展?!凹议L(cháng)們會(huì )認識到,開(kāi)放式探索正是他們的孩子學(xué)會(huì )在世界中穿行的方式。他們從柜子里拿出一些東西,然后把它放回去。他們發(fā)明了自己的小目標——這對成年人來(lái)說(shuō)可能毫無(wú)意義——然后他們掌握了這些目標,”他說(shuō)?!癉eepMind 正在以編程方式為其代理在這個(gè)世界上設定目標,而這些代理正在學(xué)習如何一一掌握它們?!?/p>

Nicholson 說(shuō),強化學(xué)習代理也顯示出在他們自己的虛擬世界中開(kāi)發(fā)具身智能的跡象,就像人類(lèi)一樣?!斑@又一次表明,人們學(xué)習穿越和操縱的豐富而可塑的環(huán)境有利于通用智能的出現,智能的生物學(xué)和物理類(lèi)比可以指導人工智能的進(jìn)一步工作,”他說(shuō)。

南加州大學(xué)計算機科學(xué)副教授 Sathyanaraya Raghavachary 對 DeepMind 論文中的主張持懷疑態(tài)度,尤其是關(guān)于本體感覺(jué)、時(shí)間意識以及對目標和環(huán)境的高級理解的結論。

“即使我們人類(lèi)也沒(méi)有完全意識到我們的身體,更不用說(shuō)那些 VR 代理了,” Raghavachary 在對 TechTalks 的評論中說(shuō),并補充說(shuō),對身體的感知需要一個(gè)集成的大腦,該大腦被共同設計以實(shí)現合適的身體意識和空間位置?!芭c時(shí)間的流逝一樣——這也需要一個(gè)對過(guò)去有記憶的大腦,以及與過(guò)去相關(guān)的時(shí)間感。他們(論文作者)的意思可能與代理跟蹤由他們的行為(例如,由于移動(dòng)紫色金字塔)導致的環(huán)境中的漸進(jìn)變化,底層物理模擬器將產(chǎn)生的狀態(tài)變化有關(guān)。

Raghavachary 還指出,如果代理能夠理解他們任務(wù)的高層結構,他們就不需要 2000 億步的模擬訓練來(lái)達到最佳結果。

“底層架構缺乏實(shí)現他們在結論中指出的這三件事(身體意識、時(shí)間流逝、理解高級任務(wù)結構)所需的東西,”他說(shuō)?!翱偟膩?lái)說(shuō),XLand 只是‘大同小異’?!?/p>


模擬與現實(shí)世界的差距

簡(jiǎn)而言之,這篇論文證明,如果你能夠創(chuàng )建一個(gè)足夠復雜的環(huán)境,設計正確的強化學(xué)習架構,并讓你的模型獲得足夠的經(jīng)驗(并且有很多錢(qián)可以花在計算資源上),你將能夠泛化到同一環(huán)境中的各種任務(wù)。這基本上就是自然進(jìn)化賦予人類(lèi)和動(dòng)物智能的方式。

事實(shí)上,DeepMind 已經(jīng)對 AlphaZero 做了類(lèi)似的事情,AlphaZero 是一種強化學(xué)習模型,能夠掌握多個(gè)兩人回合制游戲。XLand 實(shí)驗通過(guò)添加零樣本學(xué)習元素將相同的概念擴展到更高的水平。

但是,雖然我認為 XLand 訓練的代理的經(jīng)驗最終會(huì )轉移到現實(shí)世界的應用中,例如機器人和自動(dòng)駕駛汽車(chē),但我認為這不會(huì )是一個(gè)突破。您仍然需要做出妥協(xié)(例如創(chuàng )建人為限制以降低現實(shí)世界的復雜性)或創(chuàng )建人為增強(例如將先驗知識或額外傳感器注入機器學(xué)習模型)。

DeepMind 的強化學(xué)習代理可能已經(jīng)成為虛擬 XLand 的主人。但是他們的模擬世界甚至沒(méi)有真實(shí)世界的一小部分復雜性。在很長(cháng)一段時(shí)間內,這種差距仍將是一個(gè)挑戰。

參考鏈接:

https://bdtechtalks.com/2021/08/02/deepmind-xland-deep-reinforcement-learning/

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。

稱(chēng)重傳感器相關(guān)文章:稱(chēng)重傳感器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>