學(xué)貫中西(14):人機協(xié)同決策(續)
1 三種類(lèi)型的AI
過(guò)去20 年,AI 在辨識( 分類(lèi)) 和預測,兩方面表現令人類(lèi)驚奇。就像算命仙,辨識出您的本命、預測出您的“時(shí)和運”了。若時(shí)來(lái)運轉,就努力擴大行動(dòng),趨吉迎福。若時(shí)運不濟,就凡事小心慎行,冬藏春迎,蓄銳待發(fā)。這階段的AI,通稱(chēng)為:識別型AI。
在大數據時(shí)代里,人眼可看、手中能掌握的資料很有限,且視野小,人為優(yōu)化只能獲得局部最優(yōu)解(Local optimum)。于是,就需要AI 生成來(lái)幫忙,以人為找出的局部最佳解為條件( 基礎),輸入給AI ( 如Conditional GAN 模型), 讓它協(xié)助生成全局最佳解(Global optimum)。這階段的AI,通稱(chēng)為:生成型AI。
上一期里,曾經(jīng)談到了AI 能夠幫助檢驗人類(lèi)決策者的假設,降低決策風(fēng)險,促進(jìn)企業(yè)的成長(cháng)茁壯。于是,AI 有3 種:識別型AI、生成型AI、決策型AI。
● 識別型AI:對事物或現象,洞察其特征(Feature),而進(jìn)行歸類(lèi)( 識別)。
● 生成型AI:學(xué)習目標事物或現象的數據分布(Distribution),生成新數據,呈現逼真的事物。
● 決策型AI:由< 生成型AI> 提供方案,由< 識別型AI> 評估風(fēng)險,然后挑選風(fēng)險最低、勝率最高的方案,并采取行動(dòng)。所以決策型AI 的關(guān)鍵因子是:風(fēng)險。
2 決策型AI的3項特點(diǎn)
從商業(yè)決策而觀(guān)之,商業(yè)環(huán)境是善變的,而且存在競爭者刻意唱反調,使得看似最佳獲利方案,卻可能是最賠錢(qián)的。于是,決策型AI 的第1 項特點(diǎn)是:需要把環(huán)境或敵方的可能方案(的特征)輸入到AI模型里。
《孫子兵法》說(shuō):勝兵先勝而后求戰;敗兵先戰而后求勝。于是,決策型AI 的第2 項特點(diǎn)是:幫忙做“先勝”的評估,也就是“不敗”的評估,也就是評估風(fēng)險。
例如,當今股市領(lǐng)域,最著(zhù)名的投資決策者是巴菲特。他說(shuō),他的投資決策都基于兩條原則,第1 條原則是不賠錢(qián)( 先不敗、先勝);而第2 條原則是永遠不忘記。
從成吉思汗與神鷹的故事,可協(xié)助我們領(lǐng)會(huì )到,如果決策型AI 扮演神鷹的角色,既符合AI 的特性,又非常具有價(jià)值。當AI( 神鷹) 發(fā)現決策者思緒不夠完美時(shí),可以給予畫(huà)龍點(diǎn)睛的效果。更具價(jià)值在于:當AI( 神鷹)發(fā)現決策者的決定是錯的,而且行動(dòng)是災難性的,AI立即提出嚴重警告。于是,決策型AI 的第3 項特點(diǎn)是:把“決策型AI”做在決策點(diǎn)與行動(dòng)點(diǎn)之間。例如,成吉思汗拿著(zhù)杯子去盛裝那滴下來(lái)的山泉水。
裝滿(mǎn)了水,快拿到口邊,準備一飲而盡時(shí),在天空中飛翔的神鷹突然飛撲下來(lái),“嗖”的一聲,就把成吉思汗手中的杯子踢翻了,水都灑到地上了。
神鷹在決策者的“決策時(shí)間點(diǎn)”與“行動(dòng)時(shí)間點(diǎn)”之間的數秒鐘內,實(shí)時(shí)納入當下的決策,做出智慧的推論,采取保護主人的行動(dòng),而且刻不容緩( 圖1)。
圖1
過(guò)去,許多人把AI 做到“決策時(shí)間點(diǎn)”之前,提供給決策者參考,是OK 的,只是這樣的作法,只是把AI 做成為BI ( 商業(yè)智能) 或大數據分析的延伸,其價(jià)值并非最高的。把AI 做在策者的“決策時(shí)間點(diǎn)”與“行動(dòng)時(shí)間點(diǎn)”之間,我稱(chēng)為:AI 神鷹。把AI 做在策者的“決策時(shí)間點(diǎn)”之前,我稱(chēng)為:AI 獵狗。
AI 獵狗作用于人類(lèi)的“決策前”;而AI 神鷹作用于“決策后”。這兩項AI 成為人類(lèi)決策者的最佳伙伴。對于基層經(jīng)理人( 決策) 而言,AI 獵狗可以發(fā)揮很大的輔助效果。對于高層總裁( 決策) 而言,AI 神鷹可以發(fā)揮關(guān)鍵性的效益。所以成吉思汗出行時(shí),隨身攜帶神鷹,而不是獵狗。獵狗看利益,神鷹看風(fēng)險。兩者協(xié)同合作,帶給人類(lèi)趨吉避兇效果,讓企業(yè)勢如破竹。如成吉思汗一般,建立地球史上最大版圖的帝國。AI 天生具有“考古”和當下“探索”的強大能力。也就是AI 出生就具有獵狗的天份,能極靈敏地嗅出利益機會(huì )( 如那里有兔子)。也就是一般統稱(chēng)的“預測(Predict)”能力,這種極靈敏能力既可以用來(lái)嗅出“利益”,也可以用來(lái)嗅出“危險”。于是,將一群擅于嗅出風(fēng)險的AI 獵狗們,巧妙組合成為一個(gè)團隊,就成為一只“AI 神鷹”了。
3 以劃拳比賽為例
這是一個(gè)做給小學(xué)生玩的AI 游戲,讓小朋友與Zenbo 機器人玩剪刀、石頭、布的劃拳比賽( 圖2 和圖3)。
圖2
圖3
比賽一開(kāi)始,請先開(kāi)啟Zenbo 的“AI 劃拳游戲”,如圖4。Zenbo 會(huì )說(shuō)出:“我們一起來(lái)玩剪刀、石頭、布。當我喊‘剪刀、石頭、布’,我們就同時(shí)出拳喔,準備好了嗎?”。請您回答:“好了”。Zenbo 就出現下述畫(huà)面( 圖5),同時(shí)Zenbo 也說(shuō)出:“開(kāi)始出拳喔,剪刀、石頭、布”。
圖4
圖5
這時(shí)請您出拳,要用口說(shuō)出來(lái)。例如說(shuō)出:“布”。此刻Zenbo 先已決定它的出拳,瞬間已聽(tīng)到您說(shuō)出的話(huà)(布),就顯示出來(lái)。
圖6
同時(shí),Zenbo 就很高興地說(shuō)出:“哈哈哈,我贏(yíng)了”。然后繼續下一回合的比賽。
4 AI模型的架構設計
我們共有3 個(gè)模型:RnnPredict、DecisionRiskModel、VoiceClassifier。第1 個(gè)模型(RnnPredict) 是基于RNN的模型,它從比賽的歷史數據中,探索對方出拳的規律(圖7)。
圖7
第2個(gè)模型(DecisionRiskModel) 是基于對方出拳的規律,加上己方的決策,進(jìn)行風(fēng)險(Risk) 評估,如圖8。
圖8
第3個(gè)模型(VoiceClassifier) 是監視、辨別對方當下出拳的行為,而計算出勝負( 圖9)。
圖9
在這劃拳游戲里,AI 必須在看到對方出拳之前,預先作最好的決策。所以第2 個(gè)模型的運行時(shí)間,是比第3 個(gè)模型還要早。這第2 個(gè)模型是依賴(lài)第1 個(gè)模型所探索的到的對方出拳規律。
5 AI模型的學(xué)習(訓練)流程
5.1 訓練RnnPredict模型
這RnnPredict 模型會(huì )從比賽的經(jīng)驗中找出對手的出拳規律。例如,當A 與您比賽100 回合,它會(huì )記錄比賽的過(guò)程。
RnnPredict 模型會(huì )觀(guān)察您出拳的各種習慣性。例如,它會(huì )從這100 次的出拳紀錄( 數據) 中萃取您連續出拳相同時(shí),接著(zhù)您會(huì )習慣性選擇出什么拳呢? 于是,它萃取出來(lái)了( 圖10)。
圖10
接著(zhù),按下“AI 尋找規律”,RnnPredict 模型就展開(kāi)機器學(xué)習,并且以神經(jīng)網(wǎng)絡(luò )的權重來(lái)記錄它找出來(lái)的規律,然后他也輸出所找到的規律( 圖11)。
圖11
從上圖里AI 輸出的結果看來(lái),AI 的確發(fā)現了您的出拳習慣:幾乎沒(méi)有連續3 次出一樣的拳。例如,從上圖的第1 列,您前兩次都出“石頭”,AI 就估算出您這次將出拳的可能性是:出“布”、“剪刀”、“石頭”的可能性,分別為(0.75,0.25,0)。
5.2 訓練DecisionRiskModel模型
這是一個(gè)分類(lèi)模型( 屬于識別型AI)。剛才AI 基于過(guò)往的大數據,發(fā)現1 個(gè)規律:您連續兩回合出招一樣時(shí),其后( 第3 招) 出招,幾乎不會(huì )與前兩回相同。例如,前兩回合,您都出“剪刀”,這一回合,您幾乎不會(huì )繼續出“剪刀”。所以,您只會(huì )出“石頭”或“布”了。此時(shí),如果AI 出石頭,就它就穩輸了( 風(fēng)險高);反之如果AI 出“布”,它就穩不輸了( 風(fēng)險低);同理如果AI 出剪刀,就輸贏(yíng)各一半( 風(fēng)險中等)。前兩回,如果您出其他招( 不連續出同一招) 時(shí),都全部看成“中等風(fēng)險”。
于是,AI 只要善用它所發(fā)現的規則,在出拳瞬間自我評估它出招的風(fēng)險,確保它不會(huì )掉入高風(fēng)險的賽局里,它(AI) 的贏(yíng)面就大增了?,F在就來(lái)把上述的贏(yíng)家規律輸入到Excel 表格里( 圖12)。
圖12
按下“訓練”,就開(kāi)始訓練DecisionRiskModel 分類(lèi)模型。它是用來(lái)評估各種出拳方案的風(fēng)險評估。例如,輸入值[1,1,0],表示對方連續兩次出“剪刀”,而AI決定出“石頭”,此時(shí)評估出來(lái):風(fēng)險高。于是AI 決定改變出拳的選擇。例如,改為出“布”,就輸入[1,1,2],此時(shí)評估風(fēng)險低,就是好策略了。
6 結束語(yǔ)
本期說(shuō)明了決策型AI 的特色。并以劃拳比賽為例,說(shuō)明其架構,包括3 個(gè)AI 模型:第1 個(gè)是RnnPredict模型,負責探索對方的出拳規律( 知彼)。第2 個(gè)是DecisionRiskModel 模型,負責評估決策風(fēng)險( 知己)。
第3 個(gè)是VoiceClassifier 模型是典型的語(yǔ)音識別模型。雖然本范例里,由3 個(gè)模型組合起來(lái),與人們競賽。但是它們也可以在商業(yè)環(huán)境里,協(xié)助人類(lèi)決策者,進(jìn)行優(yōu)越的商業(yè)決策。
(本文來(lái)源于《電子產(chǎn)品世界》雜志2022年12月期)
評論