面向低轨星座边缘计算的博弈强化学习方法综述

Overview on game reinforcement learning methods for edge computing of low-orbit constellation

在线阅读下载PDF

导出

摘要博弈强化学习作为人工智能领域的新兴范式,是当前解决低轨星座边缘计算问题的主流方法。融入博弈论的多智能体深度强化学习方法为复杂、动态、不确定性的星座边缘计算问题提供了新思路。通过梳理总结卫星组网、任务卸载以及资源调度3种卫星边缘计算主要研究方向,详细阐述了博弈强化学习范式基础,并从博弈模型、深度Q网络、深度确定性策略梯度以及近端策略优化等方面分别阐述了3种研究方向上的典型应用现状,最后对该领域的前沿挑战进行分析,期望为博弈强化学习范式与低轨星座边缘计算领域的交叉融合研究提供参考。 As a new paradigm in the field of artificial intelligence,game reinforcement learning is an advanced mainstream method to solve the edge computing problem of low-orbit constellation.The multi-agent deep reinforcement learning integrated into the game perspective provides a new idea for dynamic,complex and uncertain constellation edge computing problems.By summarizing the three main research directions of satellite edge computing,namely satellite networking,task unloading and resource scheduling,the basis of game reinforcement learning paradigm is elaborated,and the typical applications in the three research directions are described respectively from the methods of game model,deep Q network,deep deterministic strategy gradient and near-end strategy optimization.In the end,the paper looks forward to the frontier challenges in this field,expected to provide a reference for the cross-fusion research of game reinforcement learning paradigm and low-orbit constellation edge computing.

作者谷学强张万鹏谭思雨罗俊仁周棪忠 GU Xueqiang;ZHANG Wanpeng;TAN Siyu;LUO Junren;ZHOU Yanzhong(College of Intelligence Science and Technology,National University of Defense Technology,Changsha 410073,China;Hunan Institute of Advanced Technology,Changsha 410205,China)

机构地区国防科技大学智能科学学院湖南先进技术研究院

出处《智能科学与技术学报》 CSCD 2024年第3期301-318,共18页 Chinese Journal of Intelligent Science and Technology

基金国家自然科学基金项目(No.92271108,No.62173336)。

关键词低轨星座边缘计算博弈论多智能体强化学习 low-orbit constellation edge computing game theory multi-agent reinforcement learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献35

1张沛,刘帅军,马治国,王晓晖,宋俊德.基于深度增强学习和多目标优化改进的卫星资源分配算法[J].通信学报,2020,41(6):51-60. 被引量：12
2李天宇.基于强化学习的云计算资源调度策略研究[J].上海电力学院学报,2019,35(4):399-403. 被引量：11
3左珮良,侯少龙,郭超,蒋华,王文博.基于强化学习的多层卫星网络边缘安全决策方法[J].通信学报,2022,43(6):189-199. 被引量：5
4刘治国,张姣姣,潘成胜.基于Dueling-DDQN的星上带宽资源预留算法研究[J].兵器装备工程学报,2023,44(12):272-277. 被引量：2
5金堃,邓向阳,于柯远.深度强化学习之近端策略优化研究[J].物联网技术,2023,13(7):69-75. 被引量：5
6夏玮玮,胡静,宋铁成.低地球轨道卫星边缘计算场景中任务卸载与资源分配联合优化算法[J].通信学报,2024,45(7):48-60. 被引量：2
7菅欣柯,徐飞,宁临鹏.低轨卫星网络基于Stackelberg博弈的任务卸载策略[J].西安工业大学学报,2023,43(4):393-404. 被引量：3
8底晓强,于力伟,刘旭,Syed Umer.一种基于演化博弈的低轨卫星切换算法研究[J].南京大学学报（自然科学版）,2018,54(4):855-862. 被引量：8
9许旭升,党朝辉,宋斌,袁秋帆,肖余之.基于多智能体强化学习的轨道追逃博弈方法[J].上海航天（中英文）,2022,39(2):24-31. 被引量：16
10赵力冉,党朝辉,张育林.空间轨道博弈:概念、原理与方法[J].指挥与控制学报,2021,7(3):215-224. 被引量：23

二级参考文献253

1刘洵,谢金森,陈双武.链路状态感知的低轨卫星网络路由机制[J].宇航总体技术,2020,0(2):33-40. 被引量：5
2柴源,罗建军,王明明,韩楠.基于追逃博弈的非合作目标接近控制[J].宇航总体技术,2020,0(1):30-38. 被引量：5
3周姚,夏旻,莫李龙.兰德联合一体化应急模型应用及启示[J].东南大学学报（哲学社会科学版）,2021,23(S01):166-167. 被引量：4
4刘贺语,孙富春,李洪波,杨治安.一种基于机器学习的卫星网络QoS路由机制[J].中南大学学报（自然科学版）,2013,44(S2):263-267. 被引量：2
5王霜,修保新,肖卫东.Web服务器集群的负载均衡算法研究[J].计算机工程与应用,2004,40(25):78-80. 被引量：46
6季明.美国“翌日”模拟法辅助战略问题决策[J].外国军事学术,2004,0(9):34-35. 被引量：1
7赵晓哲,郭锐.军事系统研究的综合集成方法[J].系统工程理论与实践,2004,24(10):127-130. 被引量：17
8陈金平,焦文海,马骏,宋小勇.基于星间测距/轨道定向参数约束的导航卫星自主定轨研究[J].武汉大学学报（信息科学版）,2005,30(5):439-443. 被引量：20
9李庆,朱立东,吴诗其.低轨卫星通信系统中快速终端的切换技术[J].通信学报,2006,27(5):120-125. 被引量：8
10张更新,郦苏丹,甘仲民.IGSO在卫星移动通信中的应用研究[J].通信学报,2006,27(8):148-154. 被引量：6

共引文献271

1任晓旭,仇超,邓辉,戴子明,刘泽军,王晓飞.边缘智能融合区块链:研究现状、应用及挑战[J].信息与控制,2024,53(1):1-16. 被引量：3
2沈华,王丽琼.基于移动边缘计算的任务卸载及隐私保护问题综述[J].武汉大学学报（理学版）,2023,69(2):258-269. 被引量：4
3刘扬,石泽钊,王玖豪,葛强.基于“功能-行为-结构”的软件定义卫星系统研究与设计[J].河南大学学报（自然科学版）,2024,54(3):275-284.
4王芳芳.基于噪声注入的代理策略优化算法[J].办公自动化,2021,26(10):15-17.
5曾康霖.怎样看待商业银行的存贷差额[J].金融研究,2000(3):71-74. 被引量：10
6王文东,武海妮,侯勉.物联网下分布式在线学习资源个性化调度仿真[J].计算机仿真,2019,36(1):417-420. 被引量：2
7温暖,刘正华,祝令谱,孙扬.深度强化学习在变体飞行器自主外形优化中的应用[J].宇航学报,2017,38(11):1153-1159. 被引量：22
8夏旻,宋稳柱,施必成,刘佳.基于加权密集连接卷积网络的深度强化学习方法[J].计算机应用,2018,38(8):2141-2147. 被引量：9
9刘朋硕.基于加权密集连接卷积的深度强化学习方法总结[J].电子世界,2018,0(13):66-66.
10梁媛,袁景凌,陈旻骋.利用空间优化的增强学习Sarsa改进预取算法[J].计算机科学,2019,46(3):327-331. 被引量：1

1吕佳,王泽宇.基于深度学习的视网膜血管分割方法综述[J].重庆师范大学学报（自然科学版）,2024,41(4):110-125.
2王卓骁.人造天体[J].天文爱好者,2024(10):15-15.
3王浩,姚俊萍,李晓军,阙小翔.带噪声标签细粒度图像分类方法研究综述[J].火箭军工程大学学报,2024,38(5):96-108.
4任思达,冯彦翔,陈炜,张广辉,杨宜康.面向低轨星座馈电链路切换问题的混合克隆选择算法[J].控制与决策,2024,39(10):3385-3394.
5高楠,王鹏程,刘泽圳,倪育博,孟召宗,张宗华.透明物体非侵入式三维重建方法综述(特邀)[J].红外与激光工程,2024,53(9):88-106.
6张献泽,潘文特.面向人工智能时代的建筑设计方法综述[J].新建筑,2024(5):66-72.
7张峰,王二亮.太阳帆及其姿态控制方法综述[J].上海航天（中英文）,2024,41(5):162-170.
8丁乙宸,黄亚平,谢来荣,鲁仕维,张梦洁.我国城市区域产业链空间研究进展与方法综述[J].华中建筑,2024,42(10):23-26.
9赵娅,王世铎,贾迪.基于视频信号的非接触式心率和血氧饱和度检测方法综述[J].计算机系统应用,2024,33(10):26-36.
10陈学斌,单丽洋,郭如敏.基于差分隐私的直方图发布方法综述[J].计算机应用,2024,44(10):3114-3121.

智能科学与技术学报

2024年第3期

浏览历史

内容加载中请稍等...

面向低轨星座边缘计算的博弈强化学习方法综述

参考文献35

二级参考文献253

共引文献271

相关作者

相关机构

相关主题

浏览历史