基于深度强化学习与自学习的多无人机近距空战机动策略生成算法被引量：15

Maneuvering strategy generation algorithm for multi-UAV in close-range air combat based on deep reinforcement learning and self-play

在线阅读下载PDF

导出

摘要为解决多无人机近距空战机动决策问题,提出一种基于参数共享Q网络与虚拟自我对局的多无人机近距空战机动策略生成算法.首先,设计一种适用于不同无人机编队规模的混合马尔可夫博弈模型与多无人机机动决策策略生成强化学习框架—参数共享Q网络,并通过自编码器对状态空间进行压缩以提高策略学习效率.然后,使用虚拟自我对局方法使机动策略收敛至纳什均衡策略.最后对自编码器的参数选择、策略生成算法的训练过程与机动策略的合理性与迁移性进行了仿真实验.通过仿真结果表明,引入自编码器可以有效地提高策略学习效率,并且使用该算法生成的多无人机近距空战机动策略具有合理性与良好的迁移性. In order to solve the problem of multi-UAV close-range air combat maneuvering decision-making, a multi-UAV close-range air combat maneuvering strategy generation algorithm based on parameter sharing Q network and neural fictitious self-play is proposed. Firstly, a hybrid Markov game model suitable for different UAV formation sizes and a reinforcement learning framework for generating maneuvering decision strategies of multi-UAV are designed—parameter sharing Q network, and the state space is compressed through the autoencoder to improve the efficiency of strategy learning.Then, using the neural fictitious self-play makes the maneuver strategy converge to the Nash equilibrium strategy. Finally,simulation experiments are carried out on the parameter selection of the autoencoder, the training process of the strategy generation algorithm, and the rationality and portability of the maneuver strategy. The simulation results show that the autoencoder is introduced can effectively improve the efficiency of strategy learning, and the multi-UAV short-range air combat maneuver strategy generated by this algorithm is reasonable and good portability.

作者孔维仁周德云赵艺阳杨婉莎 KONG Wei-ren;ZHOU De-yun;ZHAO Yi-yang;YANG Wan-sha(School of Electronics and Information,Northwestern Polytechnical University,Xi’an Shaanxi 710129,China;School of Computer Science,The University of Sydney,Sydney 2006,Australia)

机构地区西北工业大学电子信息学院悉尼大学计算机学院

出处《控制理论与应用》 EI CAS CSCD 北大核心 2022年第2期352-362,共11页 Control Theory & Applications

基金国家自然科学基金项目(61603299,61612385) 中央高校基本科研业务费专项资金项目(3102019ZX016)资助。

关键词空战决策多无人机协同强化学习虚拟自我对局 air combat decision-making multi-UAV cooperation reinforcement learning fictitious self-play

分类号 E91 [军事]

引文网络
相关文献

参考文献8

1邓可,彭宣淇,周德云.基于矩阵对策与遗传算法的无人机空战决策[J].火力与指挥控制,2019,44(12):61-66. 被引量：25
2徐光达,吕超,王光辉,谢宇鹏.基于双矩阵对策的UCAV空战自主机动决策研究[J].舰船电子工程,2017,37(11):24-28. 被引量：13
3万伟,姜长生,吴庆宪.单步预测影响图法在空战机动决策中的应用[J].电光与控制,2009,16(7):13-16. 被引量：11
4王义宁,姜玉宪.空战决策中的智能微分对策法[J].飞行力学,2003,21(1):66-70. 被引量：13
5王昱,章卫国,傅莉,黄得刚,李勇.基于精英改选机制的粒子群算法的空战纳什均衡策略逼近[J].控制理论与应用,2015,32(7):857-865. 被引量：17
6赵威,周德云.专家系统在空战多目标攻击排序中的应用[J].电光与控制,2008,15(2):23-26. 被引量：12
7高申玉.多机空战战术机动专家系统与决策支持系统研究[J].系统工程理论与实践,1999,19(8):76-79. 被引量：22
8马文,李辉,王壮,黄志勇,吴昭欣,陈希亮.基于深度随机博弈的近距空战机动决策[J].系统工程与电子技术,2021,43(2):443-451. 被引量：22

二级参考文献69

1梅丹,吴文海,徐家义.影响图的空战机动决策方法[J].火力与指挥控制,2008,33(S1):46-49. 被引量：6
2傅莉,王晓光.无人战机近距空战微分对策建模研究[J].兵工学报,2012,33(10):1210-1216. 被引量：20
3陈超,罗德林,沈春林.多目标攻击模糊排序算法研究[J].飞机设计,2005,25(4):68-71. 被引量：3
4付新华,王健.多机协同多目标攻击的目标分配和攻击排序[J].火力与指挥控制,2006,31(3):75-77. 被引量：21
5钟麟,佟明安,钟卫.影响图对策在多机协同空战中的应用[J].北京航空航天大学学报,2007,33(4):450-453. 被引量：11
6梅丹,吴文海,徐家义.现代战机空战对策建模研究[J].飞机设计,2007,27(2):69-73. 被引量：3
7VIRTANEN K, RAIVIO T, HAMALAINEN R P. Modeling pilot' s sequential maneuvering decisions by a multi- stage influence diagram [ J ]. Journal of Guidance, Control, and Dynamics, 2004,27 (4) : 665 -676.
8VIRTANEN K, KARELAHTI J, RAMO T. Modeling air combat by a moving horizon influence diagram game [J]. Journal of Guidance, Control, and Dynamics, 2006, 26 (5) :1080-1091.
9SEFRIOUI M, PERIAUX J. Nash genetic algorithms: examples and applications [ C ]//Proceedings of the Con- gress ,on Evolutionary Computation,2000:509 -516.
10[1]Isaacs R.Differential games[M].New York:John Wiley and Sons,1965.

共引文献116

1马金毅,王灿,薛涛,艾剑良,董一群.空战格斗飞行机动数据库建立及应用[J].航空学报,2023,44(S01):39-47.
2董一群,艾剑良.自主空战技术中的机动决策:进展与展望[J].航空学报,2020(S02):4-12. 被引量：14
3王欣雨,王岩,罗庆.复杂对抗战场环境下的威胁评估因子选取[J].飞机设计,2019,0(5):42-45. 被引量：2
4周思羽,吴文海,李翔,董淼.空战机动决策集模型分析[J].飞机设计,2012(3):42-45. 被引量：8
5杨友超,姜玉宪.一种定量空战决策方法[J].北京航空航天大学学报,2005,31(8):869-873. 被引量：3
6徐自祥,周德云.基于粗糙逻辑(RL)的微分对策理论[J].计算机仿真,2006,23(4):135-137.
7钟麟,佟明安,钟卫,张圣云.影响图决策方法在编队协同空战中的应用[J].飞行力学,2006,24(3):85-88. 被引量：1
8钟麟,佟明安,钟卫,张圣云.多级影响图在空战机动决策中的应用[J].系统工程理论与实践,2006,26(10):137-140. 被引量：6
9钟麟,佟明安,钟卫,张圣云.基于多级影响图的空战连续机动决策[J].系统仿真学报,2007,19(2):410-411. 被引量：4
10孙金标,徐荣红,刘峰.信息化条件下空战的关键技术及空战过程研究[J].飞行力学,2007,25(1):80-83. 被引量：6

同被引文献275

1郭子恒,蔡晨晓.基于改进深度强化学习的无人机自主导航方法[J].信息与控制,2023,52(6):736-746. 被引量：3
2钟京洋,宋笔锋.基于鲁棒伺服思想的尾坐式飞行器悬停姿态控制[J].控制与决策,2020,35(2):339-348. 被引量：2
3邵瑰玮,刘壮,付晶,谈家英,陈怡,周立玮.架空输电线路无人机巡检技术研究进展[J].高电压技术,2020,46(1):14-22. 被引量：148
4张安,陈伟,李相民.战斗机智能火力与指挥控制系统的发展和关键技术[J].电光与控制,2006,13(4):1-5. 被引量：8
5钟麟,佟明安,钟卫,张圣云.基于影响图的空战机动决策模型[J].系统仿真学报,2007,19(8):1796-1798. 被引量：7
6Zhong Lin,Tong Ming'an,Zhong Wei,Zhang Shengyun.Sequential maneuvering decisions based on multi-stage influence diagram in air combat[J].Journal of Systems Engineering and Electronics,2007,18(3):551-555. 被引量：7
7钟友武,柳嘉润,杨凌宇,申功璋.自主近距空战中机动动作库及其综合控制系统[J].航空学报,2008,29(B05):114-121. 被引量：24
8张翔伦,杨蔷薇.基于机动动作库的实时轨迹生成与仿真研究[J].飞行力学,2008,26(3):29-32. 被引量：9
9徐正军,唐硕.基于自适应遗传算法的无人机航迹规划方法研究(英文)[J].系统仿真学报,2008,20(19):5411-5414. 被引量：5
10钟友武,杨凌宇,柳嘉润,申功璋.基于智能微分对策的自主机动决策方法研究[J].飞行力学,2008,26(6):29-33. 被引量：4

引证文献15

1邵会兵,詹韬,付京博.弱模型依赖通用智能姿态控制技术[J].上海航天（中英文）,2022,39(4):66-75. 被引量：3
2刘庆健,疏利生,刘刚,李翱.低空无人机路径规划算法综述[J].航空工程进展,2023,14(2):24-34. 被引量：8
3曹征领,程亮亮,孙斌,李浩言,王华伟,殷志敏.架空线路无人机自主巡检的路径规划策略[J].浙江电力,2023,42(8):84-91. 被引量：7
4杨晟琦,田明俊,司迎利,金琳乘.基于分层强化学习的无人机机动决策[J].火力与指挥控制,2023,48(8):48-52. 被引量：4
5陈浩,黄健,刘权,周思航,张中杰.自主空战机动决策技术研究进展与展望[J].控制理论与应用,2023,40(12):2104-2129. 被引量：5
6程昊宇,张硕,刘泰涞,徐胜利,黄汉桥.无人飞行器自主决策与规划技术综述[J].空天防御,2024,7(1):6-15. 被引量：2
7赵拓,张先剑,黄健.有人/无人机协同空战任务规划技术[J].火力与指挥控制,2024,49(2):1-10.
8丁云龙,匡敏驰,朱纪洪,祝靖宇,乔直.基于LSTM–PPO算法的多机空战智能决策及目标分配[J].工程科学学报,2024,46(7):1179-1186.
9杨犇,金飞腾,刘燕斌,陈柏屹,彭寿勇.基于高速飞行器火力控制模型的智能解算方法[J].北京航空航天大学学报,2024,50(5):1693-1701.
10肖友刚,金升成,毛晓,伍国华,陆志沣.基于深度强化学习的舰船导弹目标分配方法[J].控制理论与应用,2024,41(6):990-998. 被引量：2

二级引证文献32

1刘泽琳,张袁元,杨旺嗣,陆馨缘,顾家成,陈俊逸.基于SLAM的自主避障物流无人机系统设计[J].机电工程技术,2023,52(7):60-63. 被引量：6
2李明,陈金良,刘文,王琳,赵健竹.面向城市空中交通的eVTOL飞行器路径规划算法对比[J].西华大学学报（自然科学版）,2023,42(5):54-61. 被引量：2
3纪刚,史丽楠,王光辉,王飞,李光杰.弱模型依赖的运载火箭液体晃动自适应控制方法公开[J].导弹与航天运载技术（中英文）,2023(3):69-74.
4海阳春,孙浩,孟庆成.基于遗传算法的110kV架空线路巡检点路径优化[J].今日自动化,2023(9):46-48.
5贾彬,包长春,蒋金成.基于改进A^(*)算法的无人机路径规划研究[J].信息与电脑,2023,35(19):71-75.
6程昊宇,张硕,刘泰涞,徐胜利,黄汉桥.无人飞行器自主决策与规划技术综述[J].空天防御,2024,7(1):6-15. 被引量：2
7李峻林,熊兴中,杨开来,严月浩,梁涛,刘纪龙.基于ROS与融合算法的室内无人机路径规划研究[J].国外电子测量技术,2024,43(1):173-181. 被引量：2
8万春秋,李擎,崔家瑞,杨旭,李希胜.基于离散特性的飞行器姿态智能控制方法研究及实验设计[J].实验技术与管理,2024,41(3):83-92.
9万春秋,詹韬,李擎,韩旭东.基于PSO的飞行器姿态智能控制技术研究[J].计算机仿真,2024,41(3):64-70.
10蔡焕青,谈家英,周立玮,付晶,刘壮,邵瑰玮.面向5G边缘计算的无人机自主巡检应用关键技术分析[J].电子技术（上海）,2024,53(2):46-49.

1张鹏,黄长强,魏政磊,周欢,王永乾.基于L-Kshape-HACA的空战态势分割聚类[J].空军工程大学学报（自然科学版）,2021,22(3):15-22. 被引量：2
2郭万春,解武杰,尹晖,董文瀚.基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策[J].空军工程大学学报（自然科学版）,2021,22(4):15-21. 被引量：7
3王杰,吴军,邹杰.挠性航天器变幅值输入成形姿态机动策略[J].国防科技大学学报,2022,44(1):68-76. 被引量：1
4林丽娜,胡子颖.一种构件调度策略生成新方法[J].电子世界,2021(16):131-133.
5吴傲,杨任农,梁晓龙,张佳强.基于模糊推理的无人战斗机视距空战机动决策[J].南京航空航天大学学报,2021,53(6):898-908. 被引量：7
6方伟,张婷婷,闫文君,王玉.基于多重聚类算法的分群化空战态势评估[J].中国电子科学研究院学报,2021,16(12):1276-1282. 被引量：2
7沈湘平.我身何是?我知何识?我心何属?——中国人学研究需直面当代三问[J].江海学刊,2022(1):64-72. 被引量：2
8袁富宇,代志恒,肖碧琴.单平台纯方位信息的水面编队目标运动要素解算[J].火力与指挥控制,2021,46(12):141-148. 被引量：3
9单美贤,上官晨雨.计算机支持协作学习中的情感反馈系统框架研究[J].软件导刊,2022,21(1):40-48.
10李永丰,史静平,章卫国,蒋维.深度强化学习的无人作战飞机空战机动决策[J].哈尔滨工业大学学报,2021,53(12):33-41. 被引量：14

控制理论与应用

2022年第2期

浏览历史

内容加载中请稍等...

基于深度强化学习与自学习的多无人机近距空战机动策略生成算法被引量：15

参考文献8

二级参考文献69

共引文献116

同被引文献275

引证文献15

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习与自学习的多无人机近距空战机动策略生成算法 被引量：15

参考文献8

二级参考文献69

共引文献116

同被引文献275

引证文献15

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习与自学习的多无人机近距空战机动策略生成算法被引量：15