基于改进DQN的移动机器人避障路径规划被引量：2

Obstacle avoidance path planning of mobile robot based on improved DQN

在线阅读下载PDF

导出

摘要针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效率和成功率。其次提出奖励优化方法,利用状态间的访问次数差异给予奖励,平衡状态点的访问次数,避免过度访问;同时通过计算与目标点的欧氏距离,使其偏向于选择接近目标的路径,并取消远离目标惩罚,实现奖励机制的自适应优化。最后设计了动态探索因子函数,在后期训练中侧重利用强化学习策略选取动作和学习,提高算法性能和学习效率。实验仿真结果显示,与传统DQN算法相比,改进算法在训练时间上缩短了40.25%,避障成功率上提升了79.8%以及路径长度上缩短了2.25%,均体现了更好的性能。 Aiming at the problems such as long learning time,poor exploration ability and sparse reward in obstacle avoidance path planning for robots under general reinforcement learning methods,an obstacle avoidance path planning for mobile robots based on improved Deep Q network(DQN)was proposed.Firstly,based on the traditional DQN algorithm,the obstacle learning rules are designed to remember and avoid obstacles,avoid repeated learning of the same obstacle,and improve the learning efficiency and success rate.Secondly,a reward optimization method is proposed,which uses the difference of access times between states to give rewards,balances the access times of state points,and avoids excessive access.At the same time,by calculating the Euclidean distance from the target point,it is inclined to choose the path close to the target,and cancel the penalty of staying away from the target,and realize the adaptive optimization of the reward mechanism.Finally,the dynamic exploration factor function is designed,and the reinforcement learning strategy is used to select action and learning in the later training to improve the performance and learning efficiency of the algorithm.The experimental simulation results show that compared with the traditional DQN algorithm,the improved algorithm can shorten the training time by 40.25%,the obstacle avoidance success rate by 79.8%and the path length by 2.25%,all of which show better performance.

作者田箫源董秀成 TIAN Xiaoyuan;DONG Xiucheng(School of Electrical Engineering and Electronic Information,Xihua University,Chengdu 610000,China;Sichuan University Jinjiang College,Meishan 620860,China)

机构地区西华大学电气与电子信息学院四川大学锦江学院

出处《中国惯性技术学报》 EI CSCD 北大核心 2024年第4期406-416,共11页 Journal of Chinese Inertial Technology

基金国家自然科学基金(11872069) 四川省中央引导地方科技发展专项(2021ZYD0034)。

关键词移动机器人 DQN算法路径规划避障深度强化学习 mobile robot DQN algorithm path planning obstacle avoidance deep reinforcement learning

分类号 U666.1 [交通运输工程—船舶及航道工程]

引文网络
相关文献

参考文献12

1Lan Jiang,Hongyun Huang,Zuohua Ding.Path Planning for Intelligent Robots Based on Deep Q-learning With Experience Replay and Heuristic Knowledge[J].IEEE/CAA Journal of Automatica Sinica,2020,7(4):1179-1189. 被引量：22
2赵晓,王铮,黄程侃,赵燕伟.基于改进A*算法的移动机器人路径规划[J].机器人,2018,40(6):903-910. 被引量：262
3李奇儒,耿霞.基于改进DQN算法的机器人路径规划[J].计算机工程,2023,49(12):111-120. 被引量：9
4Kai Zhu,Tao Zhang.Deep Reinforcement Learning Based Mobile Robot Navigation:A Review[J].Tsinghua Science and Technology,2021,26(5):674-691. 被引量：34
5孙辉辉,胡春鹤,张军国.移动机器人运动规划中的深度强化学习方法[J].控制与决策,2021,36(6):1281-1292. 被引量：31
6陈佳盼,郑敏华.基于深度强化学习的机器人操作行为研究综述[J].机器人,2022,44(2):236-256. 被引量：30
7徐晓苏,袁杰.基于改进强化学习的移动机器人路径规划方法[J].中国惯性技术学报,2019,27(3):314-320. 被引量：52
8刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：500
9徐建华,邵康康,王佳惠,刘学聪.基于改进强化学习的移动机器人动态避障方法[J].中国惯性技术学报,2023,31(1):92-99. 被引量：8
10郑锴,尹栋,殷少锋,郑献民,林宏旭.基于改进A^(*)算法的多基地多无人机分阶段任务规划方法[J].中国惯性技术学报,2022,30(2):248-256. 被引量：19

二级参考文献76

1Li Chen,Nan Ma,Patrick Wang,Jiahong Li,Pengfei Wang,Guilin Pang,Xiaojun Shi.Survey of Pedestrian Action Recognition Techniques for Autonomous Driving[J].Tsinghua Science and Technology,2020,25(4):458-470. 被引量：5
2张帆,Guilherme S.Pereira,Vijay Kumar.Cooperative Localization and Tracking in Distributed Robot-Sensor Networks[J].Tsinghua Science and Technology,2005,10(1):91-101. 被引量：3
3魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
4高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
5刘一松,魏宁,孙亚民.基于栅格法的虚拟人快速路径规划[J].计算机工程与设计,2008,29(5):1229-1230. 被引量：8
6曲道奎,杜振军,徐殿国,徐方.移动机器人路径规划方法研究[J].机器人,2008,30(2):97-101. 被引量：99
7任春明,张建勋.基于优化蚁群算法的机器人路径规划[J].计算机工程,2008,34(15):1-3. 被引量：37
8王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
9朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：336
10孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：641

共引文献966

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：53
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4迟旭,李花,费继友.基于改进A^(*)算法与动态窗口法融合的机器人随机避障方法研究[J].仪器仪表学报,2021,42(3):132-140. 被引量：86
5林依凡,陈彦杰,何炳蔚,黄益斌,王耀南.无碰撞检测RRT^*的移动机器人运动规划方法[J].仪器仪表学报,2020(10):257-267. 被引量：42
6徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：12
7张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：2
8李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：49
9常芳芳,陈祺航,刘云龙.局部可观测环境下未来信息辅助的无模型深度强化学习[J].南京大学学报（自然科学版）,2022,58(5):796-804.
10周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：9

同被引文献27

1郭少晶,韩宝玲,罗庆生.六足仿生步行机器人系统节能技术的研究[J].机械与电子,2007,25(4):66-68. 被引量：1
2侯嘉瑞,万熠,梁西昌,焦绪丽.面向未知环境的机器人动态路径规划算法研究[J].单片机与嵌入式系统应用,2022,22(1):29-32. 被引量：6
3郭文强,杜正毅.融合动态邻域搜索机制的蚁群系统算法[J].自动化与信息工程,2022,43(2):15-22. 被引量：3
4Kaidong Zhao,Li Ning.Hybrid Navigation Method for Multiple Robots Facing Dynamic Obstacles[J].Tsinghua Science and Technology,2022,27(6):894-901. 被引量：3
5Xueshan Gao,Qingfang Zhang,Mingkang Li,Bingqing Lan,Xiaolong Fu,Jingye Li.Mobile Robot Combination Autonomous Behavior Strategy to Inspect Hazardous Gases in Relatively Narrow Man–Machine Environment[J].Chinese Journal of Mechanical Engineering,2022,35(6):110-122. 被引量：1
6王豪杰,马向华,代婉玉,靳午煊.改进DWA算法的移动机器人避障研究[J].计算机工程与应用,2023,59(6):326-332. 被引量：19
7刘靖,何俐萍,王有元,梁浩峰.融合能耗指标与安全因子的移动医疗机器人通用路径规划[J].计算机集成制造系统,2023,29(3):964-973. 被引量：9
8朱金坛.融合神经网络及麻雀算法的机器人避障研究[J].计算机测量与控制,2023,31(4):258-263. 被引量：4
9梁嘉伟,刘向勇,张俊强.基于多级并行蚁群算法的综合布线路径规划[J].机电工程技术,2023,52(7):107-110. 被引量：2
10吴琼,袁杰,马圣山,郭振宇.基于安全点引导混合算法的启发式机器人动态路径规划[J].计算机集成制造系统,2023,29(10):3284-3295. 被引量：1

引证文献2

1廉胤东,苟彬,李超磊,李泽明,余锦伟,曾俊海.基于启发式能耗优化的电力仓储分布式多AGV路径规划方法[J].自动化与信息工程,2024,45(5):40-46. 被引量：1
2王力,赵全海,黄石磊.面向物流机器人的改进Q-Learning动态避障算法研究[J].计算机测量与控制,2025,33(3):267-274.

二级引证文献1

1赖纪南,杨臣君,肖昭凯,刘紫亮,廖烨.光缆剥皮系统磨损预测与能耗优化[J].云南电业,2025(1):13-19.

1王峰,娄明山.基于神经网络逆系统的市政清淤机器人避障路径研究[J].装备制造技术,2024(4):21-23.
2杨永辉,谢丽蓉,包洪印,马伟,孙金辉.储能调频控制参数自适应优化与退出机制设计[J].太阳能学报,2024,45(4):338-346. 被引量：1
3王晓龙,李英晟,付锐棋,何玉灵.基于多元精细复合多尺度波动散布熵和累积欧氏距离矩阵测度的风电机组变桨轴承退化状态评估[J].动力工程学报,2024,44(5):782-791. 被引量：2
4巫茜,郭冬冬,骆进朝,韩雨.基于人工势场算法改进的AGV自主避障路径规划算法及其应用[J].重庆理工大学学报（自然科学）,2024,38(4):189-195.
5李艳妮.基于近似一阶信息的改进的加速水平束方法[J].应用数学进展,2024,13(4):1368-1377.
6谢才千.催化裂化高速离心增压机振动异常及处理分析[J].压缩机技术,2024(2):62-64.
7韩笑,李姝佳,王钢,陈楠.一种基于拓扑结构变化的主动配电网自适应保护方法[J].电工技术,2024(7):110-113.
8戴临雪,徐欢欢,吴志康,唐雄,谢丹丹,贺子倩,李加兴.基于主成分分析和聚类分析的食盐综合评价[J].中国调味品,2024,49(5):171-176. 被引量：1
9郑文栋,刘华平,孙富春.面向ERT大面积触觉传感的自适应优化成像方法[J].测控技术,2024,43(4):21-28.
10汪琪,李静,于佳平.农村空心化时空演变及影响因素研究——以密山市为例[J].绿色科技,2024,26(5):230-237.

中国惯性技术学报

2024年第4期

浏览历史

内容加载中请稍等...

基于改进DQN的移动机器人避障路径规划被引量：2

参考文献12

二级参考文献76

共引文献966

同被引文献27

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进DQN的移动机器人避障路径规划 被引量：2

参考文献12

二级参考文献76

共引文献966

同被引文献27

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进DQN的移动机器人避障路径规划被引量：2