基于深度强化学习的航天器多约束规避动作快速规划被引量：5

Spacecraft Multi-Constraint Rapid Avoidance Motion Planning Based on Deep Reinforcement Learning

在线阅读下载PDF

导出

摘要航天器规避机动过程中面临多种复杂约束条件,传统基于数值优化的动作规划方法在处理相应模型和约束条件时存在初值敏感、计算时间较长等问题,难以对近距离轨道威胁做出及时反应.针对该问题,本文提出一种基于深度强化学习的航天器多约束规避动作规划方法.建立航天器六自由度非线性动力学模型以及相应姿轨机动约束条件;建立基于双延迟深度确定性策略梯度(TD3)的动作规划方法,通过TD3训练得到的神经网络在线生成满足多种约束条件的规避机动动作;构造与规划方法相适配的深度强化学习规范化训练环境,确保学习训练过程中智能体和环境的有效交互.仿真结果表明,所提方法能在预期交会时间仅数十秒的情况下快速实时生成规避动作,规划周期小于9 ms,远低于作为对比项的高斯伪谱法. Spacecrafts face with multiple complex constraints during avoidance maneuvers.There are several problems in the traditional motion planning methods based on numerical optimization when processing corresponding models and constraints,such as the sensitive initial value and long calculation time,which makes it difficult to deal with close-range orbital threats in time.To address this problem,a multi-constrained avoidance motion planning method based on deep reinforcement learning(DRL)is proposed in this paper.First,the spacecraft six-degree-of-freedom nonlinear dynamical model and related constraints for attitude-orbit maneuvers are established.Then,the avoidance motion planning method based on twin delayed deep deterministic policy gradient(TD3)is proposed,and the multi-constrained avoidance maneuvering actions can be online generated via the neural networks trained by TD3.Finally,the normative DRL training environment matched with the proposed planning method is constructed to ensure the effective interactions between agents and environments.Simulation results show that the proposed method can rapidly generate avoidance actions in real time when the expected rendezvous time is only in tens of seconds,and the planning period is less than 9 ms,which is much lower than the Gauss pseudo-spectral method as a comparison item.

作者吴健发魏春岭张海博李克行郝仁剑 WU Jianfa;WEI Chunling;ZHANG Haibo;LI Kehang;HAO Renjian(Beijing Institute of Control Engineering,Beijing 100094,China;Science and Technology on Space Intelligent Control Laboratory,Beijing 100094,China)

机构地区北京控制工程研究所空间智能控制技术全国重点实验室

出处《空间控制技术与应用》 CSCD 北大核心 2023年第2期1-9,共9页 Aerospace Control and Application

基金国家自然科学基金(62203046、U21B6001) 航天领域基金(2022-JCJQ-JJ-0660) 空间智能控制技术重点实验室基金(2022-JCJQ-LB-010-01) 中国航天科技集团有限公司钱学森青年创新基金中国航天科技集团有限公司自主研发项目中国博士后科学基金(2022M713006)。

关键词规避机动轨道威胁动作规划深度强化学习 avoidance maneuver orbital threat motion planning deep reinforcement learning

分类号 V448.2 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献10

1黄旭,柳嘉润,贾晨辉,王昭磊,张隽.深度确定性策略梯度算法用于无人飞行器控制[J].航空学报,2021,42(11):397-407. 被引量：10
2刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：143
3吴健发,魏春岭,张海博.航天器反应式碎片规避动作规划方法[J].宇航学报,2023,44(2):221-232. 被引量：6
4吴健发,王宏伦,王延祥,刘一恒.无人机反应式扰动流体路径规划[J].自动化学报,2023,49(2):272-287. 被引量：13
5王卓,徐瑞,李朝玉.递进式路径转移姿态机动快速规划方法[J].航空学报,2022,43(5):512-521. 被引量：3
6黄宇嵩,田栋,李洪珏,焦荣惠,李斐.一种翻滚非合作航天器抵近绕飞避障轨迹规划和跟踪控制方法[J].空间控制技术与应用,2021,47(3):1-8. 被引量：9
7刘冰雁,叶雄兵,方胜良,刘怀兴,贾珺.基于Frenet和改进人工势场的在轨规避路径自主规划[J].北京航空航天大学学报,2021,47(4):731-741. 被引量：10
8康国华,张晗,魏建宇,吴佳奇,张雷.能量最优的航天器连续动态避障轨迹规划[J].宇航学报,2021,42(3):305-313. 被引量：6
9高婉莹,李克行.基于人工势场的星群松散编队控制[J].空间控制技术与应用,2021,47(3):33-39. 被引量：3
10袁利,姜甜甜.航天器威胁规避智能自主控制技术研究综述[J].自动化学报,2023,49(2):229-245. 被引量：11

二级参考文献97

1王宇奇,林麒,王晓光,周凡桂,刘骏.基于RBF神经网络补偿的一种绳牵引并联机器人支撑系统的力/位混合控制[J].控制与决策,2020,35(3):536-546. 被引量：3
2陆晓飞,孟红波,梅发国.从美军“施里弗”系列演习看太空作战趋势[J].中国电子科学研究院学报,2020,15(2):110-114. 被引量：6
3熊菁,程文科,秦子增.基于Serret-Frenet坐标系的翼伞系统轨迹跟踪控制[J].动力学与控制学报,2005,3(2):87-91. 被引量：6
4邹小兵,蔡自兴,于金霞.基于异构Agent的移动机器人体系结构设计[J].中南大学学报（自然科学版）,2005,36(5):733-738. 被引量：2
5仲维国,崔平远,崔祜涛.航天器复杂约束姿态机动的自主规划[J].航空学报,2007,28(5):1091-1097. 被引量：18
6张艳召,袁建平,罗建军,周文勇.小卫星临近作业轨道和姿态联合控制[J].中国空间科学技术,2008,28(5):13-19. 被引量：4
7朱彦伟,杨乐平.航天器近距离相对运动轨迹设计与控制[J].宇航学报,2009,30(5):1834-1841. 被引量：7
8周伟勇,张育林.基于有效比冲的小卫星冷气推进系统设计[J].宇航学报,2010,31(1):173-178. 被引量：10
9钱宇,徐敏,郭东,闫循良.在轨航天器轨道规避体系研究[J].西北工业大学学报,2010,28(1):13-17. 被引量：6
10雷旭升,陶冶.小型无人飞行器风场扰动自适应控制方法[J].航空学报,2010,31(6):1171-1176. 被引量：11

共引文献201

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：53
2张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：2
3马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
4闫冬,陈盛,彭国政,谈元鹏,张玉天,吴凯.基于层次深度强化学习的带电作业机械臂控制技术[J].高电压技术,2020,46(2):459-471. 被引量：19
5刘俊红.3中药汤剂对胃溃疡治疗机理的探讨[J].河南中医,2000,20(3):28-28. 被引量：3
6汪岿,刘柏嵩.文本分类研究综述[J].数据通信,2019,0(3):37-47. 被引量：21
7罗颖,秦文虎,翟金凤.基于改进DDPG算法的车辆低速跟驰行为决策研究[J].测控技术,2019,38(9):19-23. 被引量：3
8朱小琴,袁晖,王维洲,魏峰,张驯,赵金雄.基于深度强化学习的电力通信网路由策略[J].科学技术创新,2019(36):91-93. 被引量：6
9宋仕元,胡剑波,王应洋,韩霖晓.滑模控制器参数整定的Actor-Critic学习算法[J].电光与控制,2020,27(9):24-27. 被引量：4
10郑莹,段庆洋,林利祥,游新宇,徐跃东,王新.深度强化学习在典型网络系统中的应用综述[J].无线电通信技术,2020,46(6):603-623. 被引量：9

同被引文献77

1沈凡凡,杨博帆,梁琦玮,惠丽洁,徐超.基于深度强化学习的无人机矿井自主巡航研究[J].武汉大学学报（理学版）,2023,69(2):205-214. 被引量：5
2陆晓飞,孟红波,梅发国.从美军“施里弗”系列演习看太空作战趋势[J].中国电子科学研究院学报,2020,15(2):110-114. 被引量：6
3李菊芳,谭跃进.卫星观测系统整体调度的收发问题模型及求解[J].系统工程理论与实践,2004,24(12):65-71. 被引量：25
4张秋华,孙毅,黄明明,段广仁.近地共面轨道上两飞行器在径向连续小推力下的追逃界栅[J].控制与决策,2007,22(5):530-534. 被引量：15
5王沛,谭跃进.卫星对地观测任务规划问题简明综述[J].计算机应用研究,2008,25(10):2893-2897. 被引量：12
6李菊芳,白保存,陈英武,贺仁杰.多星成像调度问题基于分解的优化算法[J].系统工程理论与实践,2009,29(8):134-143. 被引量：16
7郭玉华,李军,靳肖闪,景宁,廖巍.复杂约束对地观测卫星成像调度技术研究[J].电子学报,2009,37(10):2326-2332. 被引量：3
8宋申民,张大伟,裴润.非合作自主交会对接的动态障碍物躲避制导[J].中国空间科学技术,2010,30(6):39-48. 被引量：4
9贺仁杰,高鹏,白保存,李菊芳,姚锋,邢立宁.成像卫星任务规划模型、算法及其应用[J].系统工程理论与实践,2011,31(3):411-422. 被引量：54
10齐乃明,张文辉,高九州,马静.三维空间微重力地面模拟试验系统设计[J].机械工程学报,2011,47(9):16-20. 被引量：16

引证文献5

1杜德嵩,宋以拓,刘延芳,王旭,齐乃明.面向空间航天器机器人学习算法研究的高保真仿真平台[J].空间控制技术与应用,2023,49(3):10-17. 被引量：1
2崔立志,钟航,董文娟.基于改进优先经验回放的SAC算法路径规划[J].空间控制技术与应用,2023,49(5):55-64. 被引量：2
3李国政,李建平,井田,翟心悦.一种基于轨迹外推的成像卫星随动观测方法[J].空间控制技术与应用,2024,50(4):17-25.
4高婉莹,吴健发,魏春岭.航天器威胁规避自主决策规划方法研究综述[J].中国空间科学技术（中英文）,2024,44(4):71-89. 被引量：1
5王兆魁,刘纯武,蔡映凯.空间目标天基协同感知技术与展望[J].上海航天(中英文),2024,41(6):1-13.

二级引证文献4

1张芳,倪守娟,颜艳.基于改进强化学习的无线通信网络传输安全态势感知方法[J].通信电源技术,2024,41(6):195-197.
2杜德嵩,刘延芳,袁秋帆,赵福友,齐乃明.喷气驱动航天器姿态控制强化学习算法及实验[J].宇航学报,2024,45(6):903-913. 被引量：1
3钟宗祥,王建强.中国空间站与Starlink卫星的接近事件分析[J].江西科学,2024,42(6):1207-1215.
4胡立坤,韦春有.未知环境下基于突变定位SAC算法的移动机器人路径规划[J].计算机应用研究,2025,42(2):455-461.

1刘冰雁,叶雄兵,方胜良,刘怀兴,贾珺.基于Frenet和改进人工势场的在轨规避路径自主规划[J].北京航空航天大学学报,2021,47(4):731-741. 被引量：10
2袁利,姜甜甜.航天器威胁规避智能自主控制技术研究综述[J].自动化学报,2023,49(2):229-245. 被引量：11
3靳晓燕,巩卓,秦磊.康复护理联合心理护理对缓解老年脑卒中患者焦虑、抑郁的作用分析[J].中文科技期刊数据库（文摘版）医药卫生,2023(5):108-110.
4薛剑.疫情防控背景下网络在线学习效率提升研究[J].现代商贸工业,2023,44(7):239-240.
5康文慧.虚拟人手语动画自动生成技术研究[J].长春师范大学学报,2023,42(4):77-82. 被引量：1
6马迪.通向无限的量子之路[J].今日中国,2023,72(4):69-69.
7焦丽,李晓豁.采煤机非线性动力学模型[J].辽宁工程技术大学学报（自然科学版）,2022(6):544-548. 被引量：1
8荣艳青.以“对话学习”为方向的小学语文教学模式探索[J].中文科技期刊数据库（全文版）教育科学,2023(4):110-112.
9张启龙,陈湘萍.考虑风电消纳多向量流系统的遗传优化方法[J].电测与仪表,2023,60(3):115-121. 被引量：2
10许一蒙,霍鹏飞,王超,雷泷杰.基于高斯伪谱法的枪榴弹制导算法[J].探测与控制学报,2023,45(1):91-96. 被引量：1

空间控制技术与应用

2023年第2期

浏览历史

内容加载中请稍等...

基于深度强化学习的航天器多约束规避动作快速规划被引量：5

参考文献10

二级参考文献97

共引文献201

同被引文献77

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的航天器多约束规避动作快速规划 被引量：5

参考文献10

二级参考文献97

共引文献201

同被引文献77

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的航天器多约束规避动作快速规划被引量：5