基于合作博弈的多無(wú)人機任務(wù)研究
摘要:針對多無(wú)人機合作博弈問(wèn)題,對多無(wú)人機任務(wù)策略進(jìn)行研究。通過(guò)考慮合作聯(lián)盟的目標價(jià)值指標函數和代價(jià)指標函數,建立多無(wú)人機合作聯(lián)盟博弈模型,給出一種合作博弈的求解方法,最終得到多無(wú)人機最優(yōu)聯(lián)盟策略。仿真結果表明,該方法具有很好的可行性和有效性。
本文引用地址:http://dyxdggzs.com/article/201606/293260.htm引言
隨著(zhù)當今軍事技術(shù)的發(fā)展與需求,將博弈論應用到軍事領(lǐng)域中己受到國內外學(xué)者的廣泛關(guān)注與研究[1-2]。文獻[3]通過(guò)分析實(shí)際環(huán)境中信息的不確定性,提出了不確定信息情況下解決多無(wú)人機任務(wù)分配的問(wèn)題。文獻[4]提出一種分布式通信決策模型,利用卡爾曼濾波算法對無(wú)人機局部觀(guān)測信息進(jìn)行濾波處理,當局部任務(wù)分配結果與當前執行的跟蹤任務(wù)產(chǎn)生沖突時(shí),無(wú)人機發(fā)出通信信息,實(shí)現局部信息共享,從而達到信息的一致;在不確定條件的環(huán)境中,實(shí)時(shí)有效的動(dòng)態(tài)任務(wù)分配是多無(wú)人機順利完成對地攻擊任務(wù)的關(guān)鍵點(diǎn)。文獻[5]基于拍賣(mài)機制原理提出了多無(wú)人機的動(dòng)態(tài)任務(wù)分配算法,同時(shí)也有文獻[6]基于動(dòng)態(tài)博弈理論提出了攻防雙方目標武器分配方法。而以無(wú)人機攻防為背景,建立基于不完全信息的無(wú)人機攻防對抗動(dòng)態(tài)博弈模型,利用免疫進(jìn)化算法[7]求解出貝葉斯納什均衡,得到了無(wú)人機的最優(yōu)策略序列。文獻[8]建立了基于A(yíng)gent協(xié)商的多無(wú)人機任務(wù)分配模型,構建了無(wú)人機編隊中資源管理和任務(wù)管理等兩種Agent角色,并建立了兩種角色之間任務(wù)分配協(xié)商協(xié)議,既有效地保證了個(gè)體Agent的自主性,又最大限度地發(fā)揮了多Agent之間的合作性。文獻[9]針對異構多無(wú)人機協(xié)同任務(wù)分配問(wèn)題,提出了一種基于改進(jìn)的遺傳算法的多UAV任務(wù)分配方法。
需要指出的是,雖然國內外在多無(wú)人機作戰博弈中已經(jīng)取得了一些很有價(jià)值和意義的研究成果,但目前已有的博弈方法大部分的研究集中于非合作博弈問(wèn)題,沒(méi)有考慮到多無(wú)人機合作博弈問(wèn)題。而在實(shí)際網(wǎng)絡(luò )環(huán)境中,為了提高作戰效能,尤其是進(jìn)攻重要目標的時(shí)候,需要考慮多無(wú)人機如何進(jìn)行聯(lián)盟合作問(wèn)題,以提高整體的作戰效益[10]。因此,如何在實(shí)際作戰中考慮我方多無(wú)人機合作博弈問(wèn)題,求解合作博弈的納什均衡值問(wèn)題,這是一個(gè)新的重要研究課題。
基于此,本文將多無(wú)人機合作聯(lián)盟考慮為合作博弈問(wèn)題,實(shí)現整體聯(lián)盟收益最大化,提高多無(wú)人機整體執行任務(wù)的收益。在實(shí)際情況中,無(wú)人機之間的通信常會(huì )受到傳輸速度、網(wǎng)絡(luò )擁塞等因素的影響而存在通信延遲。因此,本文將考慮存在通信延遲時(shí),根據多無(wú)人機信息傳輸的過(guò)程,建立多無(wú)人機合作聯(lián)盟博弈模型,給出合作博弈的求解方法,并動(dòng)態(tài)分析聯(lián)盟結構的變化情況。
1 無(wú)人機合作博弈模型的建立
1.1 合作聯(lián)盟的基本概念
無(wú)線(xiàn)通信網(wǎng)絡(luò )中,聯(lián)盟中的無(wú)人機集合表示為N={1,2,...,n},對任意,稱(chēng)S為N的一個(gè)聯(lián)盟。
為聯(lián)盟集合,其中聯(lián)盟集合
元素的個(gè)數為2n,特殊情況,允許取
和
,后一種情況稱(chēng)為一個(gè)大聯(lián)盟。對于無(wú)人機系統,自主無(wú)人機之間能以通信的方式傳遞狀態(tài)信息,偵察無(wú)人機檢測到關(guān)于任務(wù)的信息后,選擇傳遞信息至周?chē)臒o(wú)人機,形成聯(lián)盟,共同完成特定的任務(wù)。具體的多無(wú)人機合作聯(lián)盟模型如圖1所示。
1.2 合作聯(lián)盟作戰收益函數
收益是指無(wú)人機在合作聯(lián)盟中最終所得或損失??紤]合作聯(lián)盟收益指標為目標價(jià)值和代價(jià)指標,建立多無(wú)人機合作聯(lián)盟的作戰收益函數。
1)目標價(jià)值指標函數
在多無(wú)人機作戰過(guò)程中,目標價(jià)值是首先考慮的一個(gè)重要指標。重點(diǎn)考慮偵察無(wú)人機的目標價(jià)值,定義如下:
(1)
其中,di(s)為偵查無(wú)人機的數據包傳送延時(shí),
,為偵查無(wú)人機i單獨行動(dòng)時(shí)的數據包傳送延時(shí),
為數據包的生存時(shí)間值,
為聯(lián)盟s中無(wú)人機的數目。
2)代價(jià)指標函數
代價(jià)指標是指偵查無(wú)人機給執行無(wú)人機的平均支付。偵查無(wú)人機i傳送數據包到同-聯(lián)盟中的執行無(wú)人機j的平均成本Ci(S),定義如下:
(2)
其中,為偵察無(wú)人機i傳送數據包到同-聯(lián)盟中執行無(wú)人機j的平均成本,Pij為偵察無(wú)人機i與執行無(wú)人機j的相遇概率。
3)聯(lián)盟合作收益函數
綜合上述模型,可以得到偵察無(wú)人機i的收益函數Ui(S):
(3)
其中,a、β分別為目標價(jià)值和代價(jià)的非負權重系數。
2 無(wú)人機合作聯(lián)盟求解
在這里,我們首先介紹聯(lián)盟形成算法:
聯(lián)盟形成算法通過(guò)比較聯(lián)盟內無(wú)人機的收益,根據Merge-Split-Rule形成聯(lián)盟。若無(wú)人機形成聯(lián)盟后收益提高,則自組織形成聯(lián)盟;反之無(wú)人機不參與聯(lián)盟形成。Merge-Split-Rule定義如下[11]:
Merge Rule-聯(lián)盟集合,當無(wú)人機收益滿(mǎn)足時(shí)
,小聯(lián)盟合并為大聯(lián)盟,即:
(4)
Split Rule-大聯(lián)盟,當無(wú)人機收益滿(mǎn)足時(shí)
,大聯(lián)盟分裂為若干不相交小聯(lián)盟,即:
(5)
無(wú)人機的通信距離為do,執行無(wú)人機在偵察無(wú)人機的通信范圍內,稱(chēng)偵察無(wú)人機遇見(jiàn)執行無(wú)人機,任務(wù)在偵察無(wú)人機的通信范圍內,稱(chēng)偵察無(wú)人機發(fā)現任務(wù)。偵察無(wú)人機與執行無(wú)人機形成聯(lián)盟來(lái)完成任務(wù)。
假設仿真區域為2km×2km,任務(wù)均勻分布在區域內,水平間距和垂直間距均為400m,有4架無(wú)人機,其中第1架偵察任務(wù),另3架執行任務(wù),偵察無(wú)人機具有傳感器,執行無(wú)人機具有相同的火力能力,以相同的10km高度和最大50km/h速度飛行。設定無(wú)人機的通信距離分別為50m、100m和200m,得出三種情況下偵察無(wú)人機發(fā)現任務(wù)和偵察無(wú)人機與執行無(wú)人機的相遇概率,如表1所示。
4架無(wú)人機,其中,無(wú)人機1為偵察無(wú)人機,無(wú)人機2、3和4為執行無(wú)人機,那么在網(wǎng)絡(luò )中可能存在7種聯(lián)盟結構:{1,2},{1,3},{1,4},{1,2,3},{1,2,4},{1,3,4},{1,2,3,4}。依據Merge-Split-Rule算法,無(wú)人機之間形成合作的聯(lián)盟。根據以上概率,分別計算在各種聯(lián)盟結構下的收益,如表2所示。從中可以看到,大聯(lián)盟結構收益最大,即在這種情況下,所有的無(wú)人機選擇形成{1,2,3,4}這種結構來(lái)共同完成任務(wù)并且在這種結構下獲得的收益最大。
3 系統性能分析
當變化偵察無(wú)人機傳送數據包到同-聯(lián)盟中執行無(wú)人機的平均成本系數為時(shí),聯(lián)盟結構進(jìn)行動(dòng)態(tài)調整,如圖2所示。當代價(jià)在0~9范圍內時(shí),大聯(lián)盟結構一直是最佳聯(lián)盟結構,當超過(guò)9時(shí),形成{1,3,4}這種結構較好,也就是說(shuō),無(wú)人機綜合考慮合作的成本及獲得收益,會(huì )形成這種聯(lián)盟結構。
4 總結
本文通過(guò)聯(lián)盟形成算法,分析多無(wú)人機執行任務(wù),考慮偵察無(wú)人機傳遞信息到執行無(wú)人機的代價(jià),以及無(wú)人機執行任務(wù)的通信延時(shí),建立多無(wú)人機合作博弈模型,得出最佳聯(lián)盟結構,獲得最小通信延時(shí),并在代價(jià)變化的情況下分析了系統性能。
參考文獻:
[1]Poropudas J, Virtanen K. Game-theoretic validation and analysis of air combat simulation models[J]. Systems, Man and Cybernetics, Part A: Systems and Humans, IEEE Transactions on, 2010, 40(5): 1057-1070.
[2]McGrew J S, How J P, Williams B, et al. Air-combat strategy using approximate dynamic programming[J]. Journal of guidance, control, and dynamics, 2010, 33(5): 1641-1654.
[3]陳俠, 唐婷. 不確定環(huán)境下多無(wú)人機動(dòng)態(tài)任務(wù)分配方法[J]. 火力與指揮控制, 2013, 38(1): 45-49.
[4]崔亞妮, 任佳, 杜文才. 多目標跟蹤下的無(wú)人機分布式通信決策模型[J]. 計算機仿真, 2014, 31(7): 68-72.
[5]周小程, 嚴建鋼, 謝宇鵬, 等. 多無(wú)人機對地攻擊任務(wù)分配算法[J]. 海軍航空工程學(xué)院學(xué)報, 2012, 27(3): 308-312.
[6]馬飛,曹澤陽(yáng),劉暉.基于納什均衡的動(dòng)態(tài)目標分配策略研究[J].現代防御技術(shù),2010,38(6):81-84.
[7]惠一楠, 朱華勇, 沈林成. 無(wú)人機攻防對抗不完全信息動(dòng)態(tài)博弈方法研究[J]. 兵工自動(dòng)化, 2009, 28(1): 4-7.
[8]羅賀, 王國強, 胡笑旋, 等. 基于 Agent 的多無(wú)人機任務(wù)分配模型[J]. 火力與指揮控制, 2014, 39(7): 22-26.
[9]王婷, 符小衛, 高曉光. 基于改進(jìn)遺傳算法的異構多無(wú)人機任務(wù)分配[J]. 火力與指揮控制, 2013, 38(5): 37-41.
[10]Virtanen K, Karelahti J, Raivio T. Modeling air combat by a moving horizon influence diagram game[J]. Journal of guidance, control, and dynamics, 2006, 29(5): 1080-1091.
[11]Zhang R, Song L, Han Z, et al. Distributed resource allocation for device-to-device communications underlaying cellular networks[C]//Communications (ICC), 2013 IEEE International Conference on. IEEE, 2013: 1889-1893.
本文來(lái)源于中國科技期刊《電子產(chǎn)品世界》2016年第6期第46頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處。
評論