<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > 人工智能之Q Learning算法

人工智能之Q Learning算法

作者：時(shí)間：2018-06-19 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

　　人工智能機器學(xué)習有關(guān)算法內容，請參見(jiàn)公眾號“科技優(yōu)化生活”之前相關(guān)文章。人工智能之機器學(xué)習主要有三大類(lèi)：1)分類(lèi);2)回歸;3)聚類(lèi)。今天我們重點(diǎn)探討一下Q Learning算法。 ^_^

本文引用地址：http://dyxdggzs.com/article/201806/381806.htm

　　通過(guò)前一篇TD-Learning時(shí)序差分(請參見(jiàn)人工智能(48)算法介紹，我們知道，TD-Learning時(shí)序差分是結合了動(dòng)態(tài)規劃DP和蒙特卡洛MC(請參見(jiàn)人工智能(31))方法，并兼具兩種算法的優(yōu)點(diǎn)，是強化學(xué)習的中心。

　　TD-learning時(shí)序差分大概分了6類(lèi)。其中，策略行動(dòng)價(jià)值qπ的off-policy時(shí)序差分學(xué)習方法： Q-Learning(單步)，Double Q-Learning(單步)。今天重點(diǎn)介紹Q-Learning算法。

　　Q Learning算法是由Watkins于1989年在其博士論文中提出，是強化學(xué)習發(fā)展的里程碑，也是目前應用最為廣泛的強化學(xué)習算法。

　　Q Learning算法概念：

　　Q Learning算法是一種off-policy的強化學(xué)習算法，一種典型的與模型無(wú)關(guān)的算法，即其Q表的更新不同于選取動(dòng)作時(shí)所遵循的策略，換句化說(shuō)，Q表在更新的時(shí)候計算了下一個(gè)狀態(tài)的最大價(jià)值，但是取那個(gè)最大值的時(shí)候所對應的行動(dòng)不依賴(lài)于當前策略。

　　Q Learning始終是選擇最優(yōu)價(jià)值的行動(dòng)，在實(shí)際項目中，Q Learning充滿(mǎn)了冒險性，傾向于大膽嘗試。

　　Q Learning算法下，目標是達到目標狀態(tài)(Goal State)并獲取最高收益，一旦到達目標狀態(tài)，最終收益保持不變。因此，目標狀態(tài)又稱(chēng)之為吸收態(tài)。

　　Q Learning算法下的agent，不知道整體的環(huán)境，知道當前狀態(tài)下可以選擇哪些動(dòng)作。通常，需要構建一個(gè)即時(shí)獎勵矩陣R，用于表示從狀態(tài)s到下一個(gè)狀態(tài)s’的動(dòng)作獎勵值。由即時(shí)獎勵矩陣R計算得出指導agent行動(dòng)的Q矩陣。

　　Q矩陣是agent的大腦。

　　Q Learning算法本質(zhì)：

　　QLearning屬于TD-Learning時(shí)序差分學(xué)習。同樣，該算法結合了動(dòng)態(tài)規劃和蒙特卡羅MC算法，模擬(或者經(jīng)歷)一個(gè)情節，每行動(dòng)一步(或多步)后，根據新?tīng)顟B(tài)的價(jià)值，來(lái)估計執行前的狀態(tài)價(jià)值。

　　下面提到的Q-Learning是單步更新算法。

　　Q Learning算法描述：

　　Q-learning是一個(gè)突破性的算法。

　　利用下面公式進(jìn)行off-policy學(xué)習，即用公式來(lái)表示Q-Learning中Q表的更新：

　　Q(St，At)←Q(St，At)+α[Rt+1+γmax Q(St+1，a)?Q(St，At)]

　　其中：

　　St：當前狀態(tài)state

　　At：從當前狀態(tài)下，采取的行動(dòng)action

　　St+1：本次行動(dòng)所產(chǎn)生的新一輪state

　　At+1：次回action

　　Rt：本次行動(dòng)的獎勵reward

　　γ為折扣因子，0<= γ<1，γ=0表示立即回報，γ趨于1表示將來(lái)回報，γ決定時(shí)間的遠近對回報的影響程度，表示犧牲當前收益，換取長(cháng)遠收益的程度。將累計回報作為評價(jià)策略?xún)?yōu)劣的評估函數。當前的回報值以及以前的回報值都可以得到，但是后續狀態(tài)的回報很難得到，因此累計回報就難以計算。而Q-learning用Q函數來(lái)代替累計回報作為評估函數，正好解決這個(gè)問(wèn)題。

　　α為控制收斂的學(xué)習率，0< α<1。通過(guò)不斷的嘗試搜索空間，Q值會(huì )逐步趨近最佳值Q*。

　　1)Q-learning單步時(shí)序差分學(xué)習方法算法描述

　　Initialize Q(s，a)，?s∈S，a∈A(s) arbitrarily， and Q(terminal， ˙)=0

　　Repeat (for each episode)：

　　? Initialize S

　　? Choose A from S using policy derived from Q (e.g. ??greedy)

　　? Repeat (for each step of episode)：

　　?? Take action A， observe R，S′

　　?? Q(S，A)←Q(S，A)+α[R+γmaxa Q(S‘，a)?Q(S，A)]

　　?? S←S′;

　　? Until S is terminal

　　每個(gè)episode是一個(gè)training session，且每一輪訓練意義就是加強大腦，表現形式是agent的Q矩陣元素更新。當Q習得后，可以用Q矩陣來(lái)指引agent的行動(dòng)。

　　Q-learning使用了max，會(huì )引起一個(gè)最大化偏差(Maximization Bias)問(wèn)題。

　　可以使用Double Q-learning可以消除這個(gè)問(wèn)題。

　　2)Double Q-learning單步時(shí)序差分學(xué)習方法算法描述

　　Initialize Q1(s，a) and Q2(s，a)，?s∈S，a∈A(s) arbitrarily

　　Initialize Q1(terminal， ˙)=Q2(terminal， ˙)=0

　　Repeat (for each episode)：

　　? Initialize S

　　? Repeat (for each step of episode)：

　　?? Choose A from S using policy derived from Q1 and Q2 (e.g. ??greedy)

　　?? Take action A， observe R，S′

　　?? With 0.5 probability：

　　??? Q1(S，A)←Q1(S，A)+α[R+γQ2(S′，argmax Q1(S′，a))?Q1(S，A)]

　　?? Else：

　　??? Q2(S，A)←Q2(S，A)+α[R+γQ1(S′，argmax Q2(S′，a))?Q2(S，A)]

　　?? S←S′;

　　? Until S is terminal

　　Double Q Learning算法本質(zhì)上是將計算Q函數進(jìn)行延遲，并不是得到一條樣本就可以更新價(jià)值函數，而是一定的概率才可以更新。由原來(lái)的1條樣本做到影響決策變?yōu)槎鄺l(至少兩條)樣本影響決策。

　　Q Learning理論基礎：

　　QLearning理論基礎如下：

　　1)蒙特卡羅方法

　　2)動(dòng)態(tài)規劃

　　3)信號系統

　　4)隨機逼近

　　5)優(yōu)化控制

　　Q Learning算法優(yōu)點(diǎn)：

　　1)所需的參數少;

　　2)不需要環(huán)境的模型;

　　3)不局限于episode task;

　　4)可以采用離線(xiàn)的實(shí)現方式;

　　5)可以保證收斂到 qπ。

　　Q Learning算法缺點(diǎn)：

　　1) Q-learning使用了max，會(huì )引起一個(gè)最大化偏差問(wèn)題;

　　2) 可能會(huì )出現更新速度慢;

　　3) 可能會(huì )出現預見(jiàn)能力不強。

　　注：使用Double Q-learning可以消除問(wèn)題1);使用多步Q -learning可以消除問(wèn)題2)和3)。

　　Q Learning算法應用：

　　從應用角度看，Q Learning應用領(lǐng)域與應用前景都是非常廣闊的，目前主要應用于動(dòng)態(tài)系統、機器人控制、工廠(chǎng)中學(xué)習最優(yōu)操作工序以及學(xué)習棋類(lèi)對弈等領(lǐng)域。

　　結語(yǔ)：

　　Q Learning是一種典型的與模型無(wú)關(guān)的算法，它是由Watkins于1989年在其博士論文中提出，是強化學(xué)習發(fā)展的里程碑，也是目前應用最為廣泛的強化學(xué)習算法。Q Learning始終是選擇最優(yōu)價(jià)值的行動(dòng)，在實(shí)際項目中，Q Learning充滿(mǎn)了冒險性，傾向于大膽嘗試，屬于TD-Learning時(shí)序差分學(xué)習。Q Learning算法已經(jīng)被廣泛應用于動(dòng)態(tài)系統、機器人控制、工廠(chǎng)中學(xué)習最優(yōu)操作工序以及學(xué)習棋類(lèi)對弈等領(lǐng)域。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 人工智能 Q Learning

評論

相關(guān)推薦

人工智能與機器人

視頻物聯(lián)網(wǎng) 可穿戴設備智能硬件高峰論壇機器人人工智能 | 2015-01-19

Blackfin Online Learning & Development Blackfin 在線(xiàn)培訓課程

資源下載 Blackfin Online Learning Development Blackfin 在線(xiàn)培訓課程 | 2007-04-19

具有人工智能的溫度控制電路圖

設計方案具有人工智能溫度控制電路圖 | 2012-07-24

未來(lái)的人工智能世界：技術(shù)與人文的和諧還是斗爭？

藍盒子 | 2007-09-11

個(gè)人-窗口衛士項目采訪(fǎng)

視頻英特爾微軟黑客松人工智能 OpenVINO | 2021-07-28

ADI公司：工業(yè)4.0——人工智能的端

視頻 ADI 人工智能工業(yè)4.0 | 2019-11-08

OpenAI陷入安全危機：攻擊者成功入侵內部消息系統

OpenAI 人工智能 | 2024-07-08

新一代語(yǔ)音識別：可徹底改變車(chē)內體驗的技術(shù)

汽車(chē)電子語(yǔ)音識別生物識別人工智能 | 2024-07-18

人工智能歷史

Lamborghini | 2011-03-15

個(gè)人-口罩識別系統項目采訪(fǎng)

視頻英特爾微軟黑客松人工智能 OpenVINO | 2021-07-28

馬斯克詢(xún)問(wèn)網(wǎng)友：特斯拉向xAI投50億美元行不行

智能計算馬斯克特斯拉 xAI 人工智能 | 2024-07-25

傳蘋(píng)果智能將錯過(guò)iOS 18 9月份大升級推遲1個(gè)月發(fā)布

手機與無(wú)線(xiàn)通信蘋(píng)果智能 iOS 18 推遲人工智能 iPhone iPad Apple Intelligence | 2024-07-29

Q.921協(xié)議資料

資源下載 Q.921協(xié)議資料 | 2007-02-28

[ebook] O\'Reilly - Learning the UNIX Operating System

資源下載 ebook Learning the UNIX Operating System | 2007-02-28

推動(dòng)電動(dòng)汽車(chē)發(fā)展：利用機器視覺(jué)和人工智能提升鋰離子電池質(zhì)量

智能計算電動(dòng)汽車(chē) 機器視覺(jué)檢測人工智能 | 2024-07-18

AMD斥資6.65億美元收購芬蘭AI公司 Silo AI

智能計算 AMD silo AI 人工智能 | 2024-07-15

工信部人工智能標準化技術(shù)委員會(huì )籌建方案公示

智能計算工信部人工智能 | 2024-07-03

革新企業(yè)數據管理，邁向“真正的”混合云時(shí)代

人工智能 AI | 2024-07-03

大眾市場(chǎng)定位服務(wù)需求看漲，高通推出QPoint解決方案

madet | 2005-11-08

本科畢業(yè)設計：一種基于發(fā)育思想的語(yǔ)音識別系統實(shí)現

資源下載語(yǔ)音識別人工智能自主式機器發(fā)育思想自組織映射網(wǎng)絡(luò ) 簡(jiǎn)單反饋神經(jīng)網(wǎng)絡(luò ) | 2007-04-19

點(diǎn)擊中國獵頭品牌：超凡獵頭E-learning專(zhuān)家團

obtsmjvx | 2006-02-19

有簡(jiǎn)單人工智能的溫度控制電路

設計方案簡(jiǎn)單人工智能溫度控制 | 2009-09-01

微軟X英特爾黑客松大賽

視頻英特爾微軟黑客松人工智能 OpenVINO | 2021-07-27

簡(jiǎn)單人工智能的溫度控制電路

設計方案簡(jiǎn)單人工智能溫度控制 | 2009-07-06

借助電源完整性測試提高人工智能數據中心的能效

測試測量電源完整性測試人工智能數據中心 | 2024-07-19

有簡(jiǎn)單人工智能的溫度控制電路圖

設計方案簡(jiǎn)單人工智能溫度控制電路圖 | 2010-09-01

ST Edge AI Suite人工智能開(kāi)發(fā)套件正式上線(xiàn)快采用意法半導體技術(shù)的AI產(chǎn)品開(kāi)發(fā)速度

智能計算 ST Edge AI Suite 人工智能意法半導體 AI | 2024-07-08

仿人機器人

資源下載仿人機器人傳感器人工智能 | 2007-04-19

非接觸式IC卡讀寫(xiě)器Q-M8U2淺談

qiangsh | 2007-10-16

具有人工智能的溫度控制電路設計

設計方案具有人工智能溫度控制電路設計 | 2012-07-24

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>