<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > 學(xué)貫中西(10):從RL領(lǐng)會(huì )如何與不確定性共舞

學(xué)貫中西(10):從RL領(lǐng)會(huì )如何與不確定性共舞

作者:高煥堂(銘傳大學(xué)、長(cháng)庚大學(xué)教授,臺北) 時(shí)間:2022-08-11 來(lái)源:電子產(chǎn)品世界 收藏

1 前言

本文引用地址:http://dyxdggzs.com/article/202208/437253.htm

在上一期里,我們說(shuō)明了當人類(lèi)的慢想 ( 創(chuàng )意 ) 與 的快思 ( 直覺(jué) ) 互相平衡時(shí),最能展現協(xié)同創(chuàng )造力。有了 經(jīng)驗直覺(jué)來(lái)協(xié)助去蕪存菁,人類(lèi)更敢超越經(jīng)驗去進(jìn)行大跨度的聯(lián)想和探索。

這樣的協(xié)同組織體系,非常適合與高度不確定的外在環(huán)境 (Environment) 互動(dòng),并從外在環(huán)境獲取最大的回報。這是自然界生物 ( 有機體系 ) 的天賦學(xué)習本質(zhì),非常接近于 強化學(xué)習 (Reinforcement Learning,簡(jiǎn)稱(chēng) ) 機制。例如,AlphaGo Zero 增添了 ,就具有更強大的探索能力,能夠在極大的圍棋上打敗人類(lèi)的頂尖高手,如圖 1。

1660207784352891.png

圖1

本文就藉由 來(lái)說(shuō)明上述的協(xié)同創(chuàng )新力,如何表現于不確性環(huán)境里的決策,也進(jìn)一步闡述其探索全局最優(yōu)解 (Global optimum) 的思維過(guò)程。

2 認識強化學(xué)習

強化學(xué)習 (RL) 是機器學(xué)習 (ML) 的一種模型,它是來(lái)自于近似動(dòng)態(tài)規劃 (approximate dynamic programming, ADP) 的算法。它的主要特點(diǎn)是:能在探索 ( 在未知的 領(lǐng)域 ) 和利用 ( 現有知識 ) 之間找到平衡。

探索 (Exploration) 就是:嘗試以前從未做過(guò)的事情,以求獲得更高的報酬。而利用 (Exploitation) 就是:做當前所知能產(chǎn)生最大回報的事情。

例如,假設您的住家周邊有十個(gè)餐館,而您只去過(guò)八家餐館吃飯,而有兩家還沒(méi)去消費過(guò)?;谶^(guò)去的經(jīng)驗,您了解這八家餐館中的哪一家的是最實(shí)惠又好吃的。如果有一天,您的好朋友來(lái)訪(fǎng),您想請他去最棒的餐館吃飯。那么,您會(huì )如何選擇出最棒的餐館呢?

此時(shí),方案一是:利用。就是利用您既有的知識經(jīng)驗,從您經(jīng)歷過(guò)的八家餐館中挑選出一家最棒的餐館。另外,方案二是:探索。就是您選擇沒(méi)去過(guò)的兩家 ( 即第九家或第十家 ),一起去品嘗新的滋味。

如果您采取方案一:帶他去八家中最棒的餐館吃飯。那么如果第九家或第十家比這八家都更棒,就失去最好的了。反之,如果采取方案二:帶他去第九家或第十家餐館。那么如果這兩家并不如前八家好吃,就得不償失了。

這是有趣的情境,就是通稱(chēng)的 < 探索 - 利用 > 困境 (Exploration-Exploitation dilemma),我們該如何與他共舞,來(lái)做最具智慧的抉擇呢?此時(shí),強化學(xué)習將讓“探索”和“利用”兩者取得最佳的平衡。

3 “局部最優(yōu)”與“全局最優(yōu)”

“利用”就是:做當前所知能產(chǎn)生最大報酬的事情。例如,剛才提到的,從您經(jīng)歷過(guò)的八家餐館中挑選出一家最棒的餐館。這樣的缺點(diǎn)是,常常受限于 ( 現有知識 ),只能獲得區域性最優(yōu) (Local optima) 方案。傳統上,人類(lèi)的學(xué)習偏重于“利用”所學(xué)的知識,去發(fā)揮所長(cháng),追求很有把握、很可能 (Probable) 的方案,并從中挑選一個(gè)最高報酬的解,如圖 2。

1660207888693280.png

圖2

“探索”就是:嘗試、探索以前從未做過(guò)的事情,以求獲得可能的更高報酬。例如,剛才提到的,選擇沒(méi)去過(guò)的兩家 ( 即第九家或第十家 ) 餐館,可能比前八家更美味、好吃。然而,生物有機體系還有一種本能,去探索一些不太確定 (Improbable)的方案,然后挑選具有更高報酬的解,如圖 3。

1660207929703069.png

圖3

AI 強化學(xué)習很接近這種生物學(xué)習的本質(zhì),在探索未知領(lǐng)域和利用現有知識,兩者之間找到了最佳平衡,來(lái)獲得全局最優(yōu) (Global optima) 方案,如圖 4。

1660207997430538.png

圖4

目前,人類(lèi)已經(jīng)把這種“探索 - 利用”最佳平衡的技巧(算法)教給了 AI 機 器,讓 AlphaGo Zero 超越了人類(lèi)的圍棋頂尖高手。如果人類(lèi)也能從 AI 強化學(xué)習得到啟示,強化探索能力,則人人能探索更多可能 (Possibility),得到更多機會(huì ) (Opportunity)。

4 面對(Uncertainty)

不確定性的環(huán)境中,蘊含者各種可能性 (Possibility),也將給探索者帶來(lái)許多機會(huì ) (Opportunity)。就如同西方的諺語(yǔ):“When you focus on problems, you get problems. When you focus on possibilities, you have more opportunities.” ( 當你專(zhuān)注于問(wèn)題時(shí),會(huì )引來(lái)更多問(wèn)題。當你專(zhuān)注于可能性時(shí),你會(huì )有更多的機會(huì )。)

于是,我們就來(lái)關(guān)注可能性和機會(huì )。其中,“可能性”包括了:1) 很可能(Probable) ;2) 不太確定(Improbable)。其中,“不太確定”又包括:2a) 可能 (Possible);2b) 很不可能 (Impossible)。如圖 5 所示。

1660208067118860.png

圖5

對于所面對的不確定性環(huán)境中,所帶來(lái)的可能性和機會(huì ),進(jìn)行分門(mén)別類(lèi)之后,就來(lái)采取“剪枝”策略、進(jìn)行“去蕪存菁”的動(dòng)作,也就是:把不可能的部分刪除掉,如圖 6。

1660208144625316.png

圖6

這里的“去蕪存菁”動(dòng)作,可以大幅將低風(fēng)險。因為懂得避風(fēng)險,才敢大膽探索。AlphaGo 也擅用“去蕪存菁”策略,來(lái)縮小探索“空間”,提高探索效果。例如,AlphaGo 的目標就是將獲勝機率最大化放在第一位,它的奏效策略是搜索途徑來(lái)實(shí)現最低風(fēng)險下的獲勝機會(huì )。AlphaGo 常常會(huì )傾向為了取勝而放棄更多贏(yíng)子數,其目的是為了降低不能取勝的風(fēng)險,以便提高勝率。即使是很小的差距仍會(huì )納入謹慎考慮。例如,當 AlphaGo 面對 “贏(yíng) 3 子,90% 勝率”和“贏(yíng) 1/4 子,95% 勝率”兩種情況時(shí),它會(huì )傾向選擇后者,力求降低風(fēng)險。

去蕪存菁之后,留下的部分,俗稱(chēng)為:甜心區 (Sweet spot),如圖 7。

1660208427621218.png

圖7

孫子兵法上也強調:不打沒(méi)把握的仗。股市名家巴菲特也強調:不賠錢(qián)原則。都是說(shuō)明面對不確定時(shí),重視降低風(fēng)險,來(lái)提高勝率。

5 與不確定性共舞(Living with uncertainty)

茲拿一個(gè)童話(huà)寓言故事,來(lái)綜合前面所述的內涵。有一只小獅子肚子餓了,走到附近的草原上,依據成功經(jīng)驗和熟練的技技巧 ( 戰術(shù) ) 奮力去追小兔,填飽肚子。一日復一日,它發(fā)現捕獲的兔子日漸減少 ( 可能兔子變敏感了 ),有些困惑 ( 心生不確定性 ),回到家就問(wèn)媽媽。獅子媽媽就教這小獅子,媽媽說(shuō):“你肚子餓了,就眼睛閉著(zhù),睡大覺(jué),不要亂跑?!?/p>

小獅子滿(mǎn)腦困惑,不確定感急速上升,非常不安。但母命難違,只好勉強為之,果然耳朵變靈敏了,清晰聽(tīng)見(jiàn)兔子聲音愈來(lái)愈近,然后猛然奔出一抓,輕易捕獲,飽食一餐,繼續睡大覺(jué)。君不見(jiàn),身為野獸之王的雄獅母獅,常??此葡胨X(jué)的表情。

然而,小獅子關(guān)注于肚子餓 (focus on problems), 卻引來(lái)更多問(wèn)題 (more problems),如追累了,走不動(dòng),引來(lái)生命危險等。而獅子媽媽則教小獅子不要圍繞問(wèn)題,勇于拋掉無(wú)用的戰術(shù),力求與不確定性共舞。因而發(fā)現更多機會(huì ) (more opportunities),如兔子自動(dòng)送上門(mén)來(lái)。

(注:本文轉載自《電子產(chǎn)品世界》雜志2022年8月期)



關(guān)鍵詞: 202208 AI RL 不確定性

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>