2016人工智能技術(shù)發(fā)展進(jìn)程梳理
如果說(shuō)2015年大家還在質(zhì)疑深度學(xué)習、人工智能,認為這是又一輪泡沫的開(kāi)始,那么2016年可以說(shuō)是人工智能全面影響人們生活的一年。從AlphaGo到無(wú)人駕駛,從美國大選到量子計算機,從小Ai預測“我是歌手”到馬斯克的太空計劃,每個(gè)焦點(diǎn)事件背后都與人工智能有聯(lián)系??v覽2016年的人工智能技術(shù),筆者的印象是實(shí)用化、智能化、芯片化、生態(tài)化,讓所有人都觸手可及。下面我們以時(shí)間為坐標,盤(pán)點(diǎn)這一年的技術(shù)進(jìn)展。
本文引用地址:http://dyxdggzs.com/article/201702/343473.htm3月9-15日,棋壇新秀AlphaGo一戰成名,以4:1成績(jì)打敗韓國職業(yè)棋手圍棋九段李世石(圍棋規則介紹:對弈雙方在19x19棋盤(pán)網(wǎng)格的交叉點(diǎn)上交替放置黑色和白色的棋子,落子完畢后,棋子不能移動(dòng),對弈過(guò)程中圍地吃子,以所圍“地”的大小決定勝負)。
其實(shí)早在2015年10月,AlphaGo v13在與職業(yè)棋手、歐洲冠軍樊麾二段的五番棋比賽中,以5:0獲勝。在與李世石九段比賽中版本為v18,賽后,AlphaGo榮獲韓國棋院授予的“第〇〇一號 名譽(yù)九段”證書(shū)。7月19日,AlphaGo在GoRantings世界圍棋排名中超過(guò)柯潔,成為世界第一。
看到AlphaGo這一連串不可思議的成績(jì),我們不禁要問(wèn),是什么讓AlphaGo在短短時(shí)間內就能以如此大的能量在古老的圍棋這一競技項目迅速擊敗數千年歷史積累的人類(lèi)?

圖1 AlphaGo與李世石的對陣
AlphaGo由Google在2014年收購的英國人工智能公司DeepMind開(kāi)發(fā),背后是一套神經(jīng)網(wǎng)絡(luò )系統,由許多個(gè)數據中心作為節點(diǎn)相連,每個(gè)節點(diǎn)內有多臺超級計算機。這個(gè)系統基于卷積神經(jīng)網(wǎng)絡(luò )(Convolutional Neural Network, CNN)——一種在大型圖像處理上有著(zhù)優(yōu)秀表現的神經(jīng)網(wǎng)絡(luò ),常用于人工智能圖像識別,比如Google的圖片搜索、百度的識圖、阿里巴巴拍立淘等都運用了卷積神經(jīng)網(wǎng)絡(luò )。AlphaGo背后的系統還借鑒了一種名為深度強化學(xué)習(Deep Q-Learning,DQN)的技巧。強化學(xué)習的靈感來(lái)源于心理學(xué)中的行為主義理論,即有機體如何在環(huán)境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產(chǎn)生能獲得最大利益的習慣性行為。不僅如此,AlphaGo借鑒了蒙特卡洛樹(shù)搜索算法(Monte Carlo Tree Search),在判斷當前局面的效用函數(value function)和決定下一步的策略函數(policy function)上有著(zhù)非常好的表現。作為一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò )、采用了強化學(xué)習模型的人工智能,AlphaGo具有廣泛適應性,學(xué)習能力很強,除了玩游戲、下圍棋,最近的DeepMind Health項目將人工智能引入了疾病診斷和預測中,為人們的健康提供更好的保障。
AlphaGo系統和IBM在上個(gè)世紀打敗國際象棋大師卡斯帕羅夫的深藍超級計算機有什么不同?
國際象棋AI算法一般是枚舉所有可能招法,給局面打分。AI能力主要分為兩方面:一是局面打分算法是否合理,二是迭代的深度。國際象棋開(kāi)局的時(shí)候可以動(dòng)8個(gè)兵(*2)和兩個(gè)馬(*2)共20種招法,雖然開(kāi)局到中期招法會(huì )多一點(diǎn),但是總數也就是幾十種,游戲判斷局面也簡(jiǎn)單,將軍的加分,攻擊強子加分,被將軍或者有強子被攻擊減分,控制范圍大的加分,國際象棋里即將升變的兵加分,粗略一算就可以有個(gè)相對不錯的判斷。
圍棋棋盤(pán)上每一點(diǎn),都有黑、白、空,三種情況,棋盤(pán)上共有19*19=361個(gè)點(diǎn),所以可能產(chǎn)生的局數為3的361次方種(可以想象,從137億年前宇宙初始下起,60億人口每天下60億盤(pán),到目前為止,只下了不到億億億萬(wàn)分之一)。
圍棋可選招法非常多,在初期可以全盤(pán)落子,打劫的時(shí)候則要找“劫材”。圍棋判斷形勢的復雜度也很高,因為所有棋子地位平等,不在于一子定勝負,但每一子對于全局又都是牽一發(fā)而動(dòng)全身,所以需要的是整體協(xié)調和全局決策。AlphaGo不僅能很快計算圍棋當前局面的效用函數和決定下一步的策略函數,還能結合蒙特卡洛樹(shù)搜索算法進(jìn)行縱深的分析,得到整局棋的“最優(yōu)解”。無(wú)論從計算復雜度還是決策的深度上,AlphaGo都有質(zhì)的飛躍。
小結: AlphaGo可能是Google公關(guān)塑造的一個(gè)AI形象,但這是一次十分成功的嘗試,引起了世界性的關(guān)注。在這些華麗的成績(jì)之外,技術(shù)鋪墊仍然是一項不容小覷的工作,包括DQN算法模型與硬件平臺。我們接下來(lái)會(huì )詳細介紹。
深度增強學(xué)習DQN
增強學(xué)習是最近幾年中機器學(xué)習領(lǐng)域的最新進(jìn)展。
增強學(xué)習的目的是通過(guò)和環(huán)境交互學(xué)習到如何在相應的觀(guān)測中采取最優(yōu)行為。行為的好壞可以通過(guò)環(huán)境給的獎勵來(lái)確定。不同的環(huán)境有不同的觀(guān)測和獎勵。
增強學(xué)習和傳統機器學(xué)習的最大區別在于,增強學(xué)習是一個(gè)閉環(huán)學(xué)習的系統,算法選取的行為會(huì )直接影響到環(huán)境,進(jìn)而影響到該算法之后從環(huán)境中得到的觀(guān)測。
增強學(xué)習存在著(zhù)很多傳統機器學(xué)習所不具備的挑戰。
首先,因為在增強學(xué)習中沒(méi)有確定在每一時(shí)刻應該采取哪個(gè)行為的信息,算法必須通過(guò)探索各種可能才能判斷出最優(yōu)行為。如何有效地在可能行為數量較多的情況下有效探索,是增強學(xué)習的重要問(wèn)題。
其次,在增強學(xué)習中一個(gè)行為不僅可能會(huì )影響當前時(shí)刻的獎勵,而且還可能會(huì )影響之后所有時(shí)刻的獎勵。
在最壞的情況下,一個(gè)好行為不會(huì )在當前時(shí)刻獲得獎勵,而會(huì )在很多步都執行正確后才能得到。在這種情況下,判斷出獎勵和很多步之前的行為有關(guān)非常難。
雖然增強學(xué)習存在很多挑戰,它也能夠解決很多傳統機器學(xué)習不能解決的問(wèn)題。首先,由于不需要標注的過(guò)程,增強學(xué)習可以更有效地解決環(huán)境中所存在著(zhù)的特殊情況。比如,無(wú)人車(chē)環(huán)境中可能會(huì )出現行人和動(dòng)物亂穿馬路的特殊情況。只要模擬器能模擬出這些特殊情況,增強學(xué)習就可以學(xué)習到怎么在這些特殊情況中做出正確的行為。其次,增強學(xué)習可以把整個(gè)系統作為一個(gè)整體,從而對其中的一些模塊更加魯棒。例如,自動(dòng)駕駛中的感知模塊不可能做到完全可靠。前一段時(shí)間,特斯拉無(wú)人駕駛的事故就是因為在強光環(huán)境中感知模塊失效導致的。增強學(xué)習可以做到,即使在某些模塊失效的情況下也能做出穩妥的行為。最后,增強學(xué)習可以比較容易學(xué)習到一系列行為。
自動(dòng)駕駛需要執行一系列正確的行為才能成功駕駛。如果只有標注數據,學(xué)習到的模型每個(gè)時(shí)刻偏移了一點(diǎn),到最后可能就會(huì )偏移非常多,產(chǎn)生毀滅性的后果。而增強學(xué)習能夠學(xué)會(huì )自動(dòng)修正偏移。
DeepMind曾用五款雅達利(Atari)游戲Pong、打磚塊、太空侵略者、海底救人、Beam Rider分別測試了自己開(kāi)發(fā)的人工智能,結果發(fā)現:游戲后,神經(jīng)網(wǎng)絡(luò )的操控能力已經(jīng)遠超世界上任何一位已知的游戲高手。
DeepMind用同樣的一套人工智能,測試各種各樣的智力競技項目,取得了優(yōu)異的戰績(jì),足以證明坐在李世石面前的AlphaGo,擁有多強的學(xué)習能力。

圖2 Atari游戲畫(huà)面
小結:如果說(shuō)深度學(xué)習相當于嗷嗷待哺的嬰兒,需要人們準備好大量有營(yíng)養的數據親手喂給它,那么增強學(xué)習就是擁有基本生活能力的青少年,叛逆而獨立,充滿(mǎn)激情,喜歡挑戰,不斷在對抗中學(xué)習成長(cháng)。雖然與成熟的人工智能仍有較大差距,但可以肯定,這只是個(gè)時(shí)間問(wèn)題。
評論