<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 替代離線(xiàn)RL?Transformer進(jìn)軍決策領(lǐng)域,「序列建?!钩申P(guān)鍵

替代離線(xiàn)RL?Transformer進(jìn)軍決策領(lǐng)域,「序列建?!钩申P(guān)鍵

發(fā)布人:機器之心 時(shí)間:2021-08-15 來(lái)源:工程師 發(fā)布文章

Transformer 開(kāi)始進(jìn)軍決策領(lǐng)域了,它能否替代離線(xiàn)強化學(xué)習呢?近日,UC 伯克利、FAIR 和谷歌大腦的研究者提出了一種通過(guò)序列建模進(jìn)行強化學(xué)習的 Transformer 架構,并在 Atari、OpenAI Gym 等強化學(xué)習實(shí)驗平臺上媲美甚至超越 SOTA 離線(xiàn) RL 基線(xiàn)方法。

自 2016 年 AlphaGo 擊敗李世石開(kāi)始,強化學(xué)習(Reinforcement Learning)在優(yōu)化決策領(lǐng)域可謂是風(fēng)頭無(wú)兩。同年,基于強化學(xué)習算法的 AlphaGo 升級版 AlphaGo Zero 更是采用「從零開(kāi)始」、「無(wú)師自通」的學(xué)習模式,以 100:0 的比分輕而易舉打敗了之前的 AlphaGo。

與此同時(shí),BERT、GPT 等語(yǔ)言模型在 NLP 領(lǐng)域掀起狂潮。去年 DETR 和 ViT 出來(lái)之后,Transformer 在計算機視覺(jué)領(lǐng)域也是大殺四方。而多虧了深度學(xué)習,我們今天能做的比幾年前要多出許多。處理序列數據的能力,如音樂(lè )歌詞、句子翻譯、理解評論或構建聊天機器人,所有這些都要歸功于序列建模(Sequential Modeling)。

那么能否結合強化學(xué)習與序列建模,并構建優(yōu)化決策的 Transformer 架構呢?

近日,UC 伯克利、FAIR 和谷歌大腦的研究者發(fā)布了一篇論文,就此問(wèn)題展開(kāi)了研究并提出了 Decision Transformer——一種通過(guò)序列建模進(jìn)行強化學(xué)習的架構。

首先,為了使用 Transformer 架構的簡(jiǎn)單性和可擴展性,以及 GPT-x 和 BERT 等語(yǔ)言建模的優(yōu)勢,研究者引入了一個(gè)框架,將強化學(xué)習抽象為序列建模問(wèn)題。然后將強化學(xué)習問(wèn)題轉化為條件序列建模的架構,提出了 Decision Transformer。與先前擬合值函數或計算策略梯度的方法不同,Decision Transformer 通過(guò)利用因果掩蔽的 Transformer 來(lái)輸出最佳行動(dòng)。

根據期望獎勵、過(guò)去的狀態(tài)和行動(dòng)來(lái)調節自回歸模型,Decision Transformer 模型能夠生成實(shí)現期望回報的未來(lái)行動(dòng)。盡管很簡(jiǎn)單,Decision Transformer 在 Atari、OpenAI Gym 和 Key-to-Door 任務(wù)上達到甚至超過(guò)了最先進(jìn)的無(wú)模型離線(xiàn)強化學(xué)習基線(xiàn)性能。

1.png

論文鏈接:https://arxiv.org/pdf/2106.01345.pdf

GitHub 鏈接:https://github.com/kzl/decision-transformer

當前,該研究已經(jīng)引起業(yè)內極大的關(guān)注,官方代碼庫已經(jīng)有 750 + 的 star 量。

作為序列建模問(wèn)題的離線(xiàn)強化學(xué)習

研究者首先研究了如何通過(guò)在語(yǔ)言建??蚣苤刑岢鲰樞驔Q策問(wèn)題來(lái)改變對強化學(xué)習的觀(guān)點(diǎn)。雖然強化學(xué)習中的傳統工作使用了依賴(lài) Bellman 備份的特定框架,但用序列建模來(lái)作為替代對軌跡進(jìn)行建模使其能夠使用強大且經(jīng)過(guò)充分研究的架構(如 Transformer)來(lái)生成行為。

為了說(shuō)明這一點(diǎn),研究者研究了離線(xiàn)強化學(xué)習,從固定的數據集上訓練模型,只需最少的更改就能夠使用與語(yǔ)言建??蚣芟嗤拇a來(lái)訓練強化學(xué)習策略。

為何選用 Transformer

最近的各項成果表明,Transformer 可以大規模地對語(yǔ)義概念的高維分布進(jìn)行建模,包括語(yǔ)言中的有效零樣本泛化和分布外圖像生成。鑒于此類(lèi)模型成功應用的多樣性,研究者想要驗證它們能否用于形式化為強化學(xué)習的序列決策問(wèn)題。與以往使用 Transformer 作為傳統強化學(xué)習算法中組件的架構選擇相比,他們試圖研究生成軌跡建模,即對狀態(tài)、動(dòng)作和獎勵的序列聯(lián)合分布進(jìn)行建模,以替代傳統強化學(xué)習算法。

此外,研究者還考慮了以下范式轉變:使用序列建模目標,根據采集的經(jīng)驗來(lái)訓練 Transformer 模型,而不是通過(guò)傳統的強化學(xué)習算法(如時(shí)序差分學(xué)習)來(lái)訓練策略。這將使研究者繞過(guò)對長(cháng)期信用分配進(jìn)行自舉的需要,從而避免已知會(huì )破壞強化學(xué)習穩定的「deadly triad」之一。它還避免了時(shí)序差分學(xué)習(temporal difference,TD)中可能會(huì )導致不受歡迎的短視行為,減少未來(lái)獎勵的需求。此外,利用在語(yǔ)言和視覺(jué)領(lǐng)域廣泛應用且易于擴展的 Transformer 框架,可以進(jìn)行大量穩定的訓練。

除了長(cháng)序列建模能力之外,Transformer 還具有其他優(yōu)勢,比如可以通過(guò)自注意力(self-attention)直接執行信用分配。這與緩慢傳播獎勵并容易產(chǎn)生干擾信號的 Bellman 備份相反,可以使 Transformer 在獎勵稀少或分散注意力的情況下仍然有效地工作。Transformer 還可以對廣泛的行為分布進(jìn)行建模,從而實(shí)現更好的泛化和轉移。

離線(xiàn)強化學(xué)習是從次優(yōu)數據中學(xué)習策略來(lái)分配代理,即從固定、有限的經(jīng)驗中產(chǎn)生最大有效的行為。由于錯誤傳播和價(jià)值高估,探索非常具有挑戰性。但是,在使用序列建模目標進(jìn)行訓練時(shí),這是一項自然的任務(wù)。通過(guò)在狀態(tài)、動(dòng)作和返回序列上訓練自回歸模型,研究者將策略抽樣減少到自回歸生成建模,選擇作為生成的提示的返回 token 來(lái)指定策略的專(zhuān)業(yè)知識。

Decision Transformer:強化學(xué)習的自回歸序列建模

研究者采用了一種簡(jiǎn)單的方法:每個(gè)模態(tài)(返回、狀態(tài)或動(dòng)作)都被傳遞到一個(gè)嵌入網(wǎng)絡(luò )(圖像的卷積編碼器和連續狀態(tài)的線(xiàn)性層),然后嵌入通過(guò)自回歸 Transformer 模型處理,在給定先前 token 的情況下,使用線(xiàn)性輸出層進(jìn)行訓練以預測下一個(gè)動(dòng)作。

評估也很容易:通過(guò)期望的目標返回值(例如成功或失敗的 1 或 0)和環(huán)境中的起始狀態(tài)進(jìn)行初始化,展開(kāi)序列(類(lèi)似于語(yǔ)言模型中的標準自回歸生成)以產(chǎn)生一系列要在環(huán)境中執行的動(dòng)作。

2.png

Decision Transformer 架構。

拼接子序列以產(chǎn)生最佳軌跡

研究者考慮了固定圖上找到最短路徑的任務(wù)的強化學(xué)習問(wèn)題(累積獎勵 = 邊權重之和)。在由隨機游走組成的訓練數據集中,他們觀(guān)察到了許多次優(yōu)軌跡。如果在這些序列上訓練 Decision Transformer,可以要求模型通過(guò)調節高回報來(lái)生成最佳路徑。如果僅對隨機游走進(jìn)行訓練,Decision Transformer 可以學(xué)習將來(lái)自不同訓練軌跡的子序列拼接在一起,以便在測試時(shí)產(chǎn)生最佳軌跡。

事實(shí)上,這與離線(xiàn)強化學(xué)習框架中常用的離策略 Q-learning 算法所期望的行為相同。然而,無(wú)需引入 TD 學(xué)習算法、價(jià)值悲觀(guān)主義或行為正則化,就可以使用序列建??蚣軐?shí)現相同的行為。

如下圖所示,圖左為強化學(xué)習為固定圖尋找最短路徑,圖中顯示由隨機游走軌跡和每個(gè)節點(diǎn)的返回組成的訓練數據集,圖右顯示了以起始狀態(tài)和每個(gè)節點(diǎn)產(chǎn)生的最大可能回報為條件,Decision Transformer 對最佳路徑進(jìn)行了排序。

3.png

離線(xiàn)強化學(xué)習基準的比較

研究者擴展到了離線(xiàn)強化學(xué)習文獻中常用的基準,即 Atari 學(xué)習環(huán)境、OpenAI Gym、Minigrid Key-To-Door 任務(wù)。在離散和連續控制以及狀態(tài)和圖像觀(guān)察的多樣化任務(wù)中,他們發(fā)現 Decision Transformer 的性能可以媲美經(jīng)過(guò)充分研究的專(zhuān)業(yè) TD 學(xué)習算法的性能。

主要比較點(diǎn)是基于 TD 學(xué)習的無(wú)模型離線(xiàn)強化學(xué)習算法,因為 Decision Transformer 架構本質(zhì)上也是無(wú)模型的。此外,TD 學(xué)習是強化學(xué)習中提高樣本效率的主要范式,并且作為一個(gè)子程序在許多基于模型的強化學(xué)習算法中也很突出。研究者還與行為克隆和變體進(jìn)行了比較,因為這些也涉及了基于似然的策略學(xué)習公式。確切的算法取決于環(huán)境,但研究者的動(dòng)機如下:

TD 學(xué)習:這些方法中的大多數使用動(dòng)作空間約束或價(jià)值悲觀(guān)主義,并且將是與 Decision Transformer 最忠實(shí)的比較,代表標準的強化學(xué)習方法。最先進(jìn)的無(wú)模型方法是 Conservative Q-Learning (CQL),它作為主要的比較方法。此外,研究者還與其他的無(wú)模型強化學(xué)習算法(如 BEAR 和 BRAC )進(jìn)行了比較;

模仿學(xué)習:這種機制類(lèi)似地使用監督損失進(jìn)行訓練(而不是 Bellman 備份),并在這里使用行為克隆。

關(guān)于評估離散(Atari)和連續(OpenAI Gym)控制任務(wù),前者涉及高維觀(guān)察空間,需要長(cháng)期的信用分配,而后者需要細粒度的連續控制,代表不同的任務(wù)集。如下圖所示,主要結果總結了每個(gè)域的平均歸一化性能。

4.png

序列建模和多任務(wù)學(xué)習

此類(lèi)型建模的一個(gè)效果是執行條件生成:通過(guò)輸入想要的回報來(lái)初始化一個(gè)軌跡。Decision Transformer 不產(chǎn)生單個(gè)策略,相反它模擬了廣泛的政策分布。如果繪制訓練后 Decision Transformer 的目標回報與平均獲得的回報之間的關(guān)系圖,就會(huì )發(fā)現可以合理地匹配目標,并且僅使用監督學(xué)習進(jìn)行訓練。此外,在某些任務(wù)(例如 Qbert 和 Seaquest)上,研究者發(fā)現 Decision Transformer 實(shí)際上可以在數據集和模型策略之外進(jìn)行推理,從而獲得更高的回報。

研究者通過(guò)在很大的范圍內改變所需的目標回報來(lái)評估 Decision Transformer 理解返回 token 的能力,即評估 Transformer 的多任務(wù)分布建模能力。下圖顯示了當以指定的目標(期望)回報為條件時(shí),Decision Transformer 累積的平均采樣(評估)回報,上部為 Atari,底部為 D4RL 中重放數據集。在每項任務(wù)中,期望的目標回報和真實(shí)觀(guān)察到的回報是高度相關(guān)的。

在 Pong、HalfCheetah 和 Walker 等一些任務(wù)上,Decision Transformer 生成的軌跡幾乎完美匹配所需的回報(如圖中與 oracle 線(xiàn)重疊所示)。此外,在諸如 Seaquest 之類(lèi)的一些 Atari 任務(wù)中,Decision Transformer 有時(shí)能夠進(jìn)行外推。

5.png

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。

風(fēng)力發(fā)電機相關(guān)文章:風(fēng)力發(fā)電機原理


關(guān)鍵詞: 深度學(xué)習

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>