<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 谷歌發(fā)布 RLDS,在強化學(xué)習生成、共享和使用數據集

谷歌發(fā)布 RLDS,在強化學(xué)習生成、共享和使用數據集

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2022-01-16 來(lái)源:工程師 發(fā)布文章

編譯 | 禾木木

出品 | AI科技大本營(yíng)(ID:rgznai100)

大多數強化學(xué)習和序列決策算法都需要智能體與環(huán)境的大量交互生成訓練數據,以獲得最佳性能。這種方法效率很低,尤其是在很難做到這種交互的情況下,比如用真實(shí)的機器人來(lái)收集數據,或者和人類(lèi)專(zhuān)家進(jìn)行交互。要緩解這個(gè)問(wèn)題,可以重用外部的知識源,比如 RL Unplugged Atari 數據集,其中包括玩 Atari 游戲的合成智能體的數據。

然而,這些數據集非常少,而且序列決策生成數據的任務(wù)和方式多種多樣(例如,專(zhuān)家數據或噪聲演示,人類(lèi)或合成交互,等等),因此,整個(gè)社區要用一組很少的、具有代表性的數據集進(jìn)行工作,就不太現實(shí),甚至不可取。另外,有些數據集被發(fā)行成僅適合特定算法的形式,因此研究者不能重用這些數據集。比如,某些數據集并沒(méi)有包含與環(huán)境的交互序列,但卻提供了一組讓我們無(wú)法重構其時(shí)間關(guān)系的隨機交互,其他數據集則會(huì )以稍有差異的方式發(fā)行,從而導致細微的誤差,非常難以識別。

基于此,研究人員提出了強化學(xué)習數據集(RLDS),并發(fā)布了一套用于記錄、重放、操作、注釋和共享數據的工具,用于序列決策制定,其中包括離線(xiàn)強化學(xué)習、學(xué)徒學(xué)習或模仿學(xué)習。RLDS 可以方便地共享數據集,而不會(huì )損失任何信息(比如,保持交互的序列,而非隨機化),而且獨立于底層原始格式,從而允許用戶(hù)在更廣泛的任務(wù)上對新的算法進(jìn)行快速測試。另外,RLDS 提供了收集由合成智能體(EnvLogger)或人類(lèi)(RLDS Creator)生成的數據的工具,以及對收集到的數據進(jìn)行檢查與處理的工具。最后,通過(guò)與 TensorFlow Dataset(TFDS)集成,有助于加強與研究界共享強化學(xué)習數據集。

RL、離線(xiàn) RL 或模仿學(xué)習中的數據集結構

強化學(xué)習、離線(xiàn)強化學(xué)習或模仿學(xué)習中的算法,都有可能會(huì )使用格式完全不同的數據,并且,當數據集的格式不清楚時(shí),很容易導致由于對底層數據的誤解引起的錯誤。RLDS 通過(guò)定義數據集的每個(gè)字段的內容和意義,使數據格式顯式化,并為其提供了重新對齊和轉換的工具,以適應任何算法實(shí)現所需的格式。為了定義數據格式,RLDS 利用了強化學(xué)習數據集固有的標準結構,也就是智能體和環(huán)境之間的交互(步驟)的序列(情節),其中,智能體可以是基于規則的/自動(dòng)化控制器、正式規劃者、人類(lèi)、動(dòng)物,或上述的組合。

這些步驟中的每一個(gè)都包含當前的觀(guān)察、應用于當前觀(guān)察的行動(dòng)、作為應用行動(dòng)的結果而獲得的獎勵以及與獎勵一起獲得的折扣。步驟還包括額外的信息,以表明該步驟是該情節的第一個(gè)還是最后一個(gè),或者該觀(guān)察是否對應于一個(gè)終端狀態(tài)。每個(gè)步驟和情節還可以包含自定義的元數據,可用于存儲與環(huán)境相關(guān)或與模型相關(guān)的數據。

生成數據

研究人員通過(guò)記錄任何類(lèi)型的智能體與環(huán)境的交互來(lái)產(chǎn)生數據集。為了保持其有用性,原始數據最好以無(wú)損格式存儲,記錄所有生成的信息,并保留數據項之間的時(shí)間關(guān)系(例如,步驟和事件的序列),而不會(huì )對將來(lái)如何利用數據集作出任何假定。為了這個(gè)目的,發(fā)行了 EnvLogger,這是一個(gè)軟件庫,以開(kāi)放文檔格式記錄智能體與環(huán)境的交互。

EnvLogger 是一種環(huán)境包裝器,可以將智能體與環(huán)境的交互記錄下來(lái),并將它們存儲在一個(gè)較長(cháng)的時(shí)間內。雖然 EnvLogger 無(wú)縫地集成在 RLDS 生態(tài)系統中,但是將其設計為可作為一個(gè)獨立的庫使用,以提高模塊化程度。

與大多數機器學(xué)習環(huán)境一樣,為強化學(xué)習收集人類(lèi)數據是一個(gè)既費時(shí)又費力的過(guò)程。解決這個(gè)問(wèn)題的常見(jiàn)方法是使用眾包,它要求用戶(hù)能夠輕松地訪(fǎng)問(wèn)可能難以擴展到大量參與者的環(huán)境。在 RLDS 生態(tài)系統中,發(fā)行了一個(gè)基于 Web 的工具,名為 RLDS Creator,該工具可以通過(guò)瀏覽器為任何人類(lèi)可控制的環(huán)境提供一個(gè)通用接口。用戶(hù)可以與環(huán)境進(jìn)行交互,例如,在網(wǎng)上玩 Atari 游戲,交互會(huì )被記錄和存儲,以便以后可以通過(guò) RLDS 加載回來(lái),用于分析或訓練智能體。

共享數據

數據集通常很繁重,與更廣泛的研究社區共享,不僅可以重現之前的實(shí)驗,還可以加快研究速度,因為它更容易在一系列場(chǎng)景中運行和驗證新算法。為此,RLDS 與 TensorFlow Datasets(TFDS)集成,后者是一個(gè)現有的機器學(xué)習社區內共享數據集的庫。一旦數據集成為 TFDS 的一部分,它就會(huì )被索引到全球 TFDS 目錄中,這樣,所有研究人員都可以通過(guò)使用 tfds.load(name_of_dataset) 來(lái)訪(fǎng)問(wèn),并且可以將數據以 TensorFlow 或 Numpy 格式加載。

TFDS 獨立于原始數據集的底層格式,所以,任何具有 RLDS 兼容格式的現有數據集都可以用于 RLDS,即使它最初不是用 EnvLogger 或 RLDS Creator 生成的。此外,使用 TFDS,用戶(hù)可以保留對自己的數據擁有所有權和完全控制權,并且所有的數據集都包含了一個(gè)引用給數據集作者。

使用數據

研究人員可以使用這些數據集對各種機器學(xué)習算法進(jìn)行分析、可視化或訓練,就像上面提到的那樣,這些算法可能會(huì )以不同的格式使用數據,而不是以不同的格式存儲數據。例如,一些算法,如 R2D2 或 R2D3,使用完整的情節;而另一些算法,如 Behavioral Cloning(行為克?。┗?ValueDice,則使用成批的隨機步驟。為了實(shí)現這一點(diǎn),RLDS 提供了一個(gè)強化學(xué)習場(chǎng)景的轉換庫。由于強化學(xué)習數據集的嵌套結構,所以這些轉換都經(jīng)過(guò)了優(yōu)化,包括了自動(dòng)批處理,從而加速了其中一些操作。使用這些優(yōu)化的轉換,RLDS 用戶(hù)有充分的靈活性,可以輕松實(shí)現一些高級功能,而且開(kāi)發(fā)的管道可以在 RLDS 數據集上重復使用。轉換的示例包含了對選定的步驟字段(或子字段)的全數據集的統計,或關(guān)于情節邊界的靈活批處理。你可以在這個(gè)教程中探索現有的轉換,并在這個(gè) Colab 中看到更復雜的真實(shí)示例。

可用數據集

目前,TFDS 中有以下數據集(與 RLDS 兼容):

帶有 Mujoco 和 Adroit 任務(wù)的 D4RL 的子集

RLUnplugged DMLab、Atari 和 Real World RL 數據集

用 RLDS 工具生成的三個(gè) Robosuite 數據集

結語(yǔ)

RLDS 生態(tài)系統不僅可以提高強化學(xué)習與序列決策問(wèn)題研究的可重現性,還可以方便地進(jìn)行數據的共享和重用。研究人員期望 RLDS 所提供的特性能夠推動(dòng)發(fā)行結構化的強化學(xué)習數據集,保存所有的信息,并涵蓋更廣泛的智能體和任務(wù)。

參考鏈接:

https://ai.googleblog.com/2021/12/rlds-ecosystem-to-generate-share-and.html

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>