基于黑板的多Agent智能決策支持系統的Agent實(shí)現
如果τ(r)=φ(假設由一個(gè)動(dòng)作作為結束),則不可能存在對的后繼狀態(tài)。在這種情況下,就說(shuō)系統結束執行。同時(shí),假設所有執行都最終會(huì )結束。形式上,環(huán)境Env是一個(gè)3元組Env=E,e0,τ>,其中E提供環(huán)境狀態(tài)的集合,e0∈E是初始狀態(tài),τ是狀態(tài)轉移函數。把Agent的模型表示成一個(gè)函數,將一次執行(假設以環(huán)境狀態(tài)為結束)映射到動(dòng)作:本文引用地址:http://dyxdggzs.com/article/188711.htm
Ag:RE-AC
因此,Agent根據系統到當前為止的歷史決定執行具體的動(dòng)作。
系統是Agent和環(huán)境構成的對。任何系統都有與之相關(guān)的可能的執行集合:用R(Ag,Env)表示Agent在環(huán)境Env中的執行的集合。假設R(Ag,Env)只包含可以結束的執行,即執行r不存在可能的后繼狀態(tài):τ(r)=φ(這里不考慮無(wú)限的執行)。形式上,序列:(e0,a0,el,al,e2,…)。表示Agent Ag在環(huán)境Envr=E,e0,τ>中的一次執行,如果:e0是Env的初始狀態(tài);a0=Ag(e0);對于u>0,那么:eu∈τ((e0,a0,…au一1))其中:au=Ag((e0,a0,…eu))
3.2 Agent的行為描述
構造Agent最主要的目的是為了決策,其決策過(guò)程是一個(gè)感知到動(dòng)作的過(guò)程。把Agent的決策函數分解成感知函數see和動(dòng)作函數action。Agent具有內部狀態(tài),設I是Agent的所有內部狀態(tài)的集合,Per為(非空)的感知集合,Agent的決策過(guò)程基于這種信息,感知函數see實(shí)現從外部環(huán)境狀態(tài)到感知的映射:see:E→Per。動(dòng)作選擇函數action定義為從內部狀態(tài)到動(dòng)作的映射:action:I→Ac。引入一個(gè)附加函數next,實(shí)現從內部狀態(tài)和感知到內部狀態(tài)的映射:next:IxPer→I。因此,Agent行為可描述為:Agent從某個(gè)初始內部狀態(tài)i0開(kāi)始,觀(guān)察環(huán)境狀態(tài)e,產(chǎn)生一個(gè)感知see(e),然后通過(guò)next函數更新Agent的內部狀態(tài),變成next(i0,see(e))。Agent通過(guò)action(next(i0,see(e)))選擇動(dòng)作。執行這個(gè)動(dòng)作使Agent進(jìn)入另一個(gè)循環(huán),繼續通過(guò)see感知外部世界,通過(guò)next更新?tīng)顟B(tài),通過(guò)action選擇動(dòng)作執行。其過(guò)程如圖2所示。
3.3 Agent的行為建模
Agent行為中的認知過(guò)程包括狀態(tài)評估、決策制定、規劃、學(xué)習等。Agent行為建模就是對認知處理所包含的幾個(gè)認知過(guò)程進(jìn)行建模。其中決策制定是核心過(guò)程。決策制定是從多個(gè)方法中選擇具有最優(yōu)效用的方法并執行的過(guò)程??梢杂眯в美碚搧?lái)衡量方案的優(yōu)劣。
根據效用理論,假設有m個(gè)可選方案,在當前的狀態(tài)下,采用的決策方案為Ai,產(chǎn)生的可能狀態(tài)為Sj,每一狀態(tài)的效用值是U(Sj),概率是Pj,則該決策的期望效用值為:
比較每個(gè)方案的不同期望效用,其中期望效用值最大的方案即為當前的最佳決策A,即:
例如,有3種可選擇方法,2種狀態(tài)的決策問(wèn)題,狀態(tài)空間用(ω1,ω2)表示,可選方案為A1,A2,A3,效用函數如表1所示。
從表1可知,當前處于狀態(tài)ω1時(shí),A3是最好的選擇;當前狀態(tài)處于ω2時(shí),A1是最優(yōu)選擇。當這兩種狀態(tài)分別以一定的概率p1,p2出現時(shí),記p=p1,則p2=1-P。由式(1)和式(2)可得:
在概率不能確定情況下,根據式(3)判斷概率的大致范圍。如對Al最優(yōu)的p應滿(mǎn)足:5―3p≥4+2P,5―3P≥3+5p。則有p≤1/5。類(lèi)似的可計算A2,A3最優(yōu)對應的概率范圍分別為1/5≤p≤1/3,p≥1/3。在能夠判斷決策范圍的情況下,就可以據此對各方法進(jìn)行分析,簡(jiǎn)化決策。當影響效用值的因素不止一個(gè)時(shí),就需要采用適當的方法計算效用值,在各屬性滿(mǎn)足互斥條件,即各自產(chǎn)生的效用值互相獨立時(shí),可以采用加法的形式計算效用值。有時(shí)候,方法的選擇需要體現靈活性和可變性,這時(shí)可以通過(guò)引入相關(guān)的隨機變量建立隨機效用模型來(lái)計算效用值,從而使決策結果更符合實(shí)際情況。
4 結語(yǔ)
采用的基于黑板的多Agent智能決策支持系統模型.每個(gè)Agent本身具有自治性,Agent之間通過(guò)黑板進(jìn)行信息共享,利用黑板中的信息決定自身行為,協(xié)同完成復雜問(wèn)題地求解。由于A(yíng)gent自身具有不確定性,對多Agent系統需要解決Agent之間的有效協(xié)調,因此建立統一的協(xié)調機制,使Agent之間可以有效地相互協(xié)調工作,提高系統整體性能。實(shí)際應用中還有待于進(jìn)一步完善。
評論