基于改进深度强化学习算法的行为决策方法

A Behavioral Decision-Making Method Based on Improved Deep Reinforcement Learning Algorithms

在线阅读下载PDF

导出

摘要针对传统深度强化学习算法因训练时探索策略差导致在自动驾驶决策任务中同时出现行驶效率低、收敛慢和决策成功率低的问题,提出了结合专家评价的深度竞争双Q网络的决策方法。提出离线专家模型和在线模型,在两者间引入自适应平衡因子;引入自适应重要性系数的优先经验回放机制在竞争深度Q网络的基础上搭建在线模型;设计了考虑行驶效率、安全性和舒适性的奖励函数。结果表明,该算法相较于D3QN、PERD3QN在收敛速度上分别提高了25.93%和20.00%,决策成功率分别提高了3.19%和2.77%,平均步数分别降低了6.40%和0.14%,平均车速分别提升了7.46%与0.42%。 Aiming at the traditional deep reinforcement learning algorithms'problems of simultan-eous low driving efficiency,slow convergence and low decision success rate in self-driving decision-making tasks due to poor exploration strategies during training,a decision-making method of deep competitive double Q network combined with expert evaluation is proposed.An offline expert model and an online model are proposed,and an adaptive balance factor is introduced between them;a prioritized experience replay mechanism with adaptive importance coefficients is introduced to build an online model on the basis of the competitive deep Q-network;and a reward function that considers driving efficiency,safety,and comfort is designed.The results show that the algorithm improves the convergence speed by 25.93%and 20.00%,the decision success rate by 3.19%and 2.77%,the average steps by 6.40%and 0.14%,and the average speed by 7.46%and 0.42%,respectively,compared with D3QN and PERD3QN.

作者贾瑞豪 JIA Ruihao(School of Automobile,Chang'an University,Xi'an 710064,China)

机构地区长安大学汽车学院

出处《汽车实用技术》 2025年第1期25-30,共6页 Automobile Applied Technology

关键词自动驾驶行为决策深度强化学习模仿学习改进DQN算法 autonomous driving behavioral decision deep reinforcement learning imitation learn-ing improved DQN algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] U463.6 [机械工程—车辆工程]

引文网络
相关文献

参考文献2

1何逸煦,林泓熠,刘洋,杨澜,曲小波.强化学习在自动驾驶技术中的应用与挑战[J].同济大学学报（自然科学版）,2024,52(4):520-531. 被引量：4
2金立生,韩广德,谢宪毅,郭柏苍,刘国峰,朱文涛.基于强化学习的自动驾驶决策研究综述[J].汽车工程,2023,45(4):527-540. 被引量：11

二级参考文献23

1吕超,鲁洪良,于洋,王昊阳,吴绍斌.基于分层强化学习和社会偏好的自主超车决策系统[J].中国公路学报,2022,35(3):115-126. 被引量：9
2乔良,鲍泓,玄祖兴,梁军,潘峰.基于强化学习的无人驾驶匝道汇入模型[J].计算机工程,2018,44(7):20-24. 被引量：9
3殷国栋,朱侗,任祖平,李广民,金贤建.基于多Agent的电动汽车底盘智能控制系统框架[J].中国机械工程,2018,29(15):1796-1801. 被引量：8
4江洪,王鹏程,李仲兴.基于智能体理论的空气悬架车身高度智能控制系统研究[J].重庆理工大学学报（自然科学）,2019,33(4):17-25. 被引量：2
5朱冰,蒋渊德,赵健,陈虹,邓伟文.基于深度强化学习的车辆跟驰控制[J].中国公路学报,2019,32(6):53-60. 被引量：26
6Yifang Ma,Zhenyu Wang,Hong Yang,Lin Yang.Artificial Intelligence Applications in the Development of Autonomous Vehicles:A Survey[J].IEEE/CAA Journal of Automatica Sinica,2020,7(2):315-329. 被引量：26
7李克强,常雪阳,李家文,许庆,高博麟,潘济安.智能网联汽车云控系统及其实现[J].汽车工程,2020,42(12):1595-1605. 被引量：63
8刘庆强,刘鹏云.基于优先级经验回放的SAC强化学习算法[J].吉林大学学报（信息科学版）,2021,39(2):192-199. 被引量：7
9唐蕾,刘广钟.改进TD3算法在四旋翼无人机避障中的应用[J].计算机工程与应用,2021,57(11):254-259. 被引量：9
10代珊珊,刘全.基于动作约束深度强化学习的安全自动驾驶方法[J].计算机科学,2021,48(9):235-243. 被引量：16

共引文献13

1王澎斌.基于DUKF方法的汽车自动驾驶状态联合观测[J].工程机械文摘,2023(3):18-20. 被引量：1
2黄亚成.基于双无迹卡尔曼滤波的自动驾驶状态惯性监测[J].电子产品世界,2023,30(8):49-51. 被引量：1
3杜国栋,邹渊,张旭东,孙文景,孙巍.基于双估计强化学习结合前向预测控制的自动驾驶运动控制研究[J].汽车工程,2024,46(4):564-576. 被引量：2
4姚福星,孙超,兰云港,卢兵,王博,于海洋.基于混合专家模型的智能网联汽车换道决策方法[J].汽车工程,2024,46(5):882-892. 被引量：1
5左冬晓.基于双无迹卡尔曼滤波的电动汽车状态惯性监测[J].山西电子技术,2024(3):27-29.
6刘玉辉,于镝.基于CQL-SAC的自动驾驶防撞决策方法[J].北京信息科技大学学报（自然科学版）,2024,39(3):16-24.
7柳鹏,赵克刚,梁志豪,叶杰.基于深度强化学习CLPER-DDPG的车辆纵向速度规划[J].汽车安全与节能学报,2024,15(5):702-710.
8杨奕,顾青,孟宇,方华珍,杨俊.基于强化学习的高优先级车辆通行决策[J].无人系统技术,2024,7(6):93-102.
9杨蕾,刘孟奇.我国人工智能的安全风险挑战与治理路径研究[J].北京警察学院学报,2024(6):16-22.
10李嘉伟,高振兴,孙瑾,张洋洋,孔维武.基于ASPPO的侧风着陆训练策略优化[J].航空计算技术,2025,55(1):76-81.

1舒文卓,马孝宝,沈佳丽,汪玮,王璐,孙进,贺宽,金玉莲,杨军,陈建勇.中文版儿童前庭症状量表信度和效度评价[J].临床儿科杂志,2024,42(12):1001-1005.
2包丹宇,曹树金,廖赛源.积极老龄化视域下老年人数字素养指标体系构建[J].图书馆工作与研究,2024(12):61-72.
3吴家标,刘兴高.基于集成学习的CFB锅炉氮氧化物排放质量浓度在线建模研究[J].热力发电,2024,53(12):86-92.
4魏达.水利运行管理中的风险评估与应对措施[J].中国科技期刊数据库工业A,2024(12):009-012.
5郭向荣,张文格,崔睿博,李夏元,邹欣杭.基于修正翘曲位移函数的单箱双室薄壁箱梁剪力滞效应分析[J].铁道科学与工程学报,2024,21(12):5117-5127.

汽车实用技术

2025年第1期

浏览历史

内容加载中请稍等...

基于改进深度强化学习算法的行为决策方法

参考文献2

二级参考文献23

共引文献13

相关作者

相关机构

相关主题

浏览历史