期刊文献+
共找到310篇文章
< 1 2 16 >
每页显示 20 50 100
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略
1
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 dqn算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
基于改进DQN算法的船舶全局路径规划研究
2
作者 关巍 曲胜 +1 位作者 张显库 胡彤博 《中国舰船研究》 北大核心 2025年第1期107-114,共8页
[目的]为提升实际海域环境下船舶航行路径的经济性与安全性,提出一种改进深度Q网络(DQN)算法的船舶全局路径规划方法。[方法]首先,引入优先经验回放机制赋予重要样本更高的权重,提升学习效率;然后,再通过决斗网络和噪声网络改进DQN的网... [目的]为提升实际海域环境下船舶航行路径的经济性与安全性,提出一种改进深度Q网络(DQN)算法的船舶全局路径规划方法。[方法]首先,引入优先经验回放机制赋予重要样本更高的权重,提升学习效率;然后,再通过决斗网络和噪声网络改进DQN的网络结构,使其对特定状态及其动作的价值评估更加准确,并同时具备一定的探索性和泛化性。[结果]实验结果表明,在马尼拉附近海域环境下,相比于A^(*)算法和DQN算法,改进算法在路径长度上分别缩短了1.9%和1.0%,拐点数量上分别减少了62.5%和25%。[结论]实验结果验证了改进DQN算法能够更经济、更合理地规划出有效路径。 展开更多
关键词 船舶 运动规划 dqn算法 优先经验回放(PER)
在线阅读 下载PDF
基于DQN的智能农机路径跟踪控制研究
3
作者 杨琰 张瑞瑞 +4 位作者 张林焕 陈立平 伊铜川 吴明齐 岳晓龙 《农机化研究》 北大核心 2025年第3期28-34,共7页
针对复杂路面条件下无人化农业作业车辆路径跟踪控制精度低、控制器参数整定困难的问题,设计了一种基于深度强化学习的路径跟踪控制算法。基于五层BP神经网络构建了DQN(Deep Q-Network)路径跟踪控制器,实现了网络的轻量化和高度的可移... 针对复杂路面条件下无人化农业作业车辆路径跟踪控制精度低、控制器参数整定困难的问题,设计了一种基于深度强化学习的路径跟踪控制算法。基于五层BP神经网络构建了DQN(Deep Q-Network)路径跟踪控制器,实现了网络的轻量化和高度的可移植性。控制器网络的输入状态在采用车辆当前舵角、车辆与目标路径上控制点间横向距离偏差的基础上,引入车辆前方设定距离内的平均路径曲率,实现了车辆转向性能的提高。分别开展了仿真和田间试验,验证了所设计深度强化学习网络算法的收敛性,并对比了有路径曲率输入和无路径曲率输入两种网络的路径跟踪控制性能。仿真试验中,基于正弦曲线对两种路径跟踪控制方法进行训练,两种路径跟踪控制网络收敛后的平均跟踪距离误差为0.008 4、0.017 7 m。在间隔6 m的U型路径上进行田间测试试验,结果显示:有路径曲率输入的模型性能显著优于无路径曲率输入的模型,两种路径跟踪控制方法在路径上平均跟踪距离误差为0.038 9、0.068 4 m。验证了该路径跟踪控制方法有效性,可满足农业作业车辆路径跟踪控制需求。 展开更多
关键词 路径跟踪 深度强化学习 dqn 路径曲率 智能农机
在线阅读 下载PDF
基于RCED-DQN的滚动轴承故障诊断方法研究
4
作者 李家声 王亭强 +3 位作者 周杰 马萍 张宏立 苑茹 《组合机床与自动化加工技术》 北大核心 2025年第2期188-193,199,共7页
为提升滚动轴承设备故障诊断中传统卷积神经网络模型的特征提取能力和决策能力,增强诊断模型的准确率和泛化性,提出了基于深度强化学习DQN网络模型的RCED-DQN(residual convolutional encoder decoder-DQN,RCED-DQN)故障诊断框架。框架... 为提升滚动轴承设备故障诊断中传统卷积神经网络模型的特征提取能力和决策能力,增强诊断模型的准确率和泛化性,提出了基于深度强化学习DQN网络模型的RCED-DQN(residual convolutional encoder decoder-DQN,RCED-DQN)故障诊断框架。框架将一维卷积网络和残差编解码器结合,进行无监督预训练拓宽网络结构,挖掘了网络深层特征,解决了深度强化学习网络难以训练、模型难以收敛的问题;然后,采用预训练后的编码器作为特征提取器,与所设计的特征分类器相连接构建DQN算法的Q网络。通过智能体与环境的交互学习出最佳诊断策略,实现了滚动轴承端到端的故障诊断。实验结果证明,融合残差编解码器的深度Q网络在实验数据集下有效地提取故障特征,提高了诊断决策能力;在不同方法、不同工况下的对比实验结果也验证了所提方法的准确性、有效性和泛化性。 展开更多
关键词 深度强化学习 故障诊断 残差编解码器 dqn网络
在线阅读 下载PDF
基于DQN的快速路合流区CAV换道决策方法
5
作者 程国柱 王文志 +1 位作者 陈永胜 徐亮 《哈尔滨工业大学学报》 北大核心 2025年第3期98-109,共12页
为解决快速路合流区的交通拥堵和安全问题,保障智能网联车辆(connected and automated vehicle,CAV)在快速路合流区高效、安全、舒适、稳定地行驶,采用深度强化学习方法之DQN(deep q-network)算法,综合考虑车辆行驶安全性、高效性与舒... 为解决快速路合流区的交通拥堵和安全问题,保障智能网联车辆(connected and automated vehicle,CAV)在快速路合流区高效、安全、舒适、稳定地行驶,采用深度强化学习方法之DQN(deep q-network)算法,综合考虑车辆行驶安全性、高效性与舒适性等因素,建立了用于神经网络训练的奖励函数模型,提出了快速路合流区CAV换道决策方法。应用开源自动驾驶仿真场景highway-env,搭建快速路合流区仿真环境,对其主线路段及匝道进行仿真试验。仿真试验结果表明:相比于智能驾驶人模型(intelligent driver model,IDM)和highway-env中换道决策方法,采用所提出的快速路合流区CAV换道决策方法时,CAV能够快速达到22.22 m/s行驶的稳定状态,同时避免频繁换道及加减速行为,并优化了车头时距,很大程度上提高了交通流运行效率和乘车舒适性。研究成果在智能交通领域中,可为智能网联环境下城市快速路合流区的车辆通行提供了一种新方法,为未来智能网联车辆的换道提供了决策方法。 展开更多
关键词 智能交通 CAV换道决策方法 dqn 智能网联车辆 深度强化学习 快速路合流区
在线阅读 下载PDF
基于DQN的低轨卫星网络多目标智能路由算法
6
作者 罗宗屹 金世超 +1 位作者 董涛 殷杰 《天地一体化信息网络》 2025年第1期16-23,共8页
近年来,低轨卫星网络发展迅速,被广泛应用于全球通信、互联网接入等领域。首先,对当前低轨卫星网络发展现状与主流的低轨网络路由算法进行总结。然后,针对星上路由算法设计面临的优化目标单一、收敛速度慢以及时延和丢包率等指标优化难... 近年来,低轨卫星网络发展迅速,被广泛应用于全球通信、互联网接入等领域。首先,对当前低轨卫星网络发展现状与主流的低轨网络路由算法进行总结。然后,针对星上路由算法设计面临的优化目标单一、收敛速度慢以及时延和丢包率等指标优化难度大等挑战,提出基于深度Q网络(DQN)的多目标智能路由算法,通过设计多目标奖励函数,实现了时延、丢包率、负载均衡多目标的性能优化。在时延方面,本算法优于最短通路优先算法;在流量分布指数和丢包率方面,本算法相较于最短通路优先算法与Dijkstra算法分别提高14%和10%以上。最后,阐述所提智能路由算法在多种应用场景中的使用方法。 展开更多
关键词 低轨卫星网络 路由算法 深度Q网络
在线阅读 下载PDF
基于DQN算法的动态调度问题研究
7
作者 周荣升 王艳红 《微处理机》 2025年第1期55-59,共5页
针对动态作业车间调度中新工件突发插入导致现有调度规则失效的问题,本文基于深度强化学习中的DQN算法提出一种实时调度策略。该方法可在动态环境下对调度决策进行实时调整,以实现整体生产效率最大化和新工件及时加工的目标。研究通过... 针对动态作业车间调度中新工件突发插入导致现有调度规则失效的问题,本文基于深度强化学习中的DQN算法提出一种实时调度策略。该方法可在动态环境下对调度决策进行实时调整,以实现整体生产效率最大化和新工件及时加工的目标。研究通过构建动态仿真环境,对算法在不同工件插入场景下的性能进行了验证,结果表明该方法相比传统调度方法具有更好的适应性和鲁棒性,为解决动态作业车间调度问题提供了新的思路。 展开更多
关键词 动态作业车间 dqn算法 强化学习 车间调度
在线阅读 下载PDF
基于改进DQN的直升机CGF突防路径规划
8
作者 许强强 李克奇 +2 位作者 岳忠奇 杨艳良 岳晋忠 《火力与指挥控制》 北大核心 2025年第1期104-112,共9页
针对直升机CGF突防雷达阵地时的路径规划问题,提出了一种基于改进DQN的直升机CGF的突防路径规划方法。结合了人工势场原理和专家经验,对传统的深度强化学习DQN算法进行了多方面的改进,以适应动态和不可预知的战场环境。通过在MetaSim仿... 针对直升机CGF突防雷达阵地时的路径规划问题,提出了一种基于改进DQN的直升机CGF的突防路径规划方法。结合了人工势场原理和专家经验,对传统的深度强化学习DQN算法进行了多方面的改进,以适应动态和不可预知的战场环境。通过在MetaSim仿真作战平台中进行实验,证明该方法在路径规划的平均所需时间上比传统A*和DIJKSTRA算法以及传统DQN算法有所提高,同时在路径长度和成功率上也显示出显著的改进。 展开更多
关键词 路径规划 计算机生成兵力 深度强化学习 人工势场 dqn
在线阅读 下载PDF
基于DQN和SNN的无人车运动规划研究
9
作者 王阳 张冲 +3 位作者 张一宸 曲振东 桂成一 姬雨初 《物联网技术》 2025年第2期90-94,97,共6页
在无人驾驶领域,运动规划是亟待解决的关键问题之一。无人车的运动规划包括路径规划和路径跟踪控制两部分。目前常用的路径规划方法和路径跟踪控制方法多依据人为制定的规则和策略,缺乏灵活性。针对此问题使用DQN算法,规划得到车辆的路... 在无人驾驶领域,运动规划是亟待解决的关键问题之一。无人车的运动规划包括路径规划和路径跟踪控制两部分。目前常用的路径规划方法和路径跟踪控制方法多依据人为制定的规则和策略,缺乏灵活性。针对此问题使用DQN算法,规划得到车辆的路径点,根据规划得到的路径点,使用转向神经网络(SNN)控制车辆在相邻路径点之间进行转向运动,完成对转向关系路径点的跟踪,从而使车辆自主进行路径点规划和路径点跟踪。仿真结果表明,无人车沿规划得到的由路径点组成的全局路径行进可避开障碍物到达终点,使用转向神经网络可控制车辆完成在相邻路径点之间的转向,调整车辆的航向角,从而完成对规划得到的路径点的跟踪。由此可知,该研究能有效提高车辆的移动效率。 展开更多
关键词 运动规划 路径点规划 路径跟踪控制 dqn SNN 无人车
在线阅读 下载PDF
一种基于DQN的去中心化优先级卸载策略
10
作者 张俊娜 李天泽 +1 位作者 赵晓焱 袁培燕 《计算机工程》 CAS CSCD 北大核心 2024年第9期235-245,共11页
边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故... 边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故障的影响,且会产生较多的能耗和较高的时延。针对以上问题,提出一种基于深度Q网络(DQN)的去中心化优先级(DP-DQN)卸载策略。首先,设置通信矩阵模拟现实中边缘服务器有限的通信状态;其次,通过对任务设定优先级,使任务可以在不同边缘服务器之间跳转,保证各边缘服务器均可以自主制定卸载策略,完成任务卸载的去中心化;最后,根据任务的跳转次数为任务分配更多的计算资源,提高资源利用效率和优化效果。为了验证所提策略的有效性,针对不同DQN下参数的收敛性能进行了研究对比,实验结果表明,在不同测试情景下,DP-DQN的性能均优于本地算法、完全贪婪算法和多目标任务卸载算法,性能可提升约11%~19%。 展开更多
关键词 边缘计算 任务卸载 资源分配 去中心化 优先级 深度Q网络
在线阅读 下载PDF
基于改进DQN算法的无人仓多AGV路径规划 被引量:1
11
作者 谢勇 郑绥君 +1 位作者 程念胜 朱洪君 《工业工程》 2024年第1期36-44,53,共10页
针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法... 针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法收敛。同时提出基于总行程时间最短的冲突消解策略,从根本上解决多AGV路径冲突与死锁问题。最后,建立无人仓栅格地图进行仿真实验。结果表明,本文提出的模型和算法较其他DQN算法收敛速度提升13.3%,平均损失值降低26.3%。这说明该模型和算法有利于规避和化解无人仓多AGV路径规划冲突,减少多AGV总行程时间,对提高无人仓作业效率具有重要指导意义。 展开更多
关键词 多AGV 路径规划 dqn算法 经验知识 冲突消解
在线阅读 下载PDF
基于集成DQN的自适应边缘缓存算法
12
作者 张雷 李亚文 王晓军 《南京邮电大学学报(自然科学版)》 北大核心 2024年第6期97-107,共11页
工业应用中,动态多变的流式数据特性使强化学习算法在训练过程中很难在模型收敛性与知识遗忘之间实现很好的平衡。考虑工业现场内容请求与当前生产任务具有高度相关性,提出一种基于集成深度Q网络算法(Integrated Deep Q-Network,IDQN)... 工业应用中,动态多变的流式数据特性使强化学习算法在训练过程中很难在模型收敛性与知识遗忘之间实现很好的平衡。考虑工业现场内容请求与当前生产任务具有高度相关性,提出一种基于集成深度Q网络算法(Integrated Deep Q-Network,IDQN)的自适应缓存策略。算法在离线阶段利用不同历史任务数据,训练并保存多个历史任务模型。在线阶段每当检测到实时数据流的任务特征发生变化,则重新训练网络模型。如果实时数据流的特征隶属于历史任务,则向深度Q网络(Deep Q-Network,DQN)导入相应的历史任务模型进行网络训练。否则直接利用实时数据流训练并标记为新的任务模型。仿真实验结果表明,IDQN与参考算法相比,在内容请求流行度动态变化时能够有效减少模型收敛时间,提高缓存效率。 展开更多
关键词 工业边缘网络 缓存替换策略 集成强化学习 深度Q网络
在线阅读 下载PDF
Convolutional Neural Network-Based Deep Q-Network (CNN-DQN) Resource Management in Cloud Radio Access Network 被引量:2
13
作者 Amjad Iqbal Mau-Luen Tham Yoong Choon Chang 《China Communications》 SCIE CSCD 2022年第10期129-142,共14页
The recent surge of mobile subscribers and user data traffic has accelerated the telecommunication sector towards the adoption of the fifth-generation (5G) mobile networks. Cloud radio access network (CRAN) is a promi... The recent surge of mobile subscribers and user data traffic has accelerated the telecommunication sector towards the adoption of the fifth-generation (5G) mobile networks. Cloud radio access network (CRAN) is a prominent framework in the 5G mobile network to meet the above requirements by deploying low-cost and intelligent multiple distributed antennas known as remote radio heads (RRHs). However, achieving the optimal resource allocation (RA) in CRAN using the traditional approach is still challenging due to the complex structure. In this paper, we introduce the convolutional neural network-based deep Q-network (CNN-DQN) to balance the energy consumption and guarantee the user quality of service (QoS) demand in downlink CRAN. We first formulate the Markov decision process (MDP) for energy efficiency (EE) and build up a 3-layer CNN to capture the environment feature as an input state space. We then use DQN to turn on/off the RRHs dynamically based on the user QoS demand and energy consumption in the CRAN. Finally, we solve the RA problem based on the user constraint and transmit power to guarantee the user QoS demand and maximize the EE with a minimum number of active RRHs. In the end, we conduct the simulation to compare our proposed scheme with nature DQN and the traditional approach. 展开更多
关键词 energy efficiency(EE) markov decision process(MDP) convolutional neural network(CNN) cloud RAN deep q-network(dqn)
在线阅读 下载PDF
无人驾驶中运用DQN进行障碍物分类的避障方法
14
作者 刘航博 马礼 +2 位作者 李阳 马东超 傅颖勋 《计算机工程》 CAS CSCD 北大核心 2024年第11期380-389,共10页
安全是无人驾驶汽车需要考虑的首要因素,而避障问题是解决驾驶安全最有效的手段。基于学习的避障方法因其能够从环境中学习并直接从感知中做出决策的能力而受到研究者的关注。深度Q网络(DQN)作为一种流行的强化学习方法,在无人驾驶避障... 安全是无人驾驶汽车需要考虑的首要因素,而避障问题是解决驾驶安全最有效的手段。基于学习的避障方法因其能够从环境中学习并直接从感知中做出决策的能力而受到研究者的关注。深度Q网络(DQN)作为一种流行的强化学习方法,在无人驾驶避障领域取得了很大的进展,但这些方法未考虑障碍物类型对避障策略的影响。基于对障碍物的准确分类提出一种Classification Security DQN(CSDQN)的车辆行驶决策框架。根据障碍物的不同类型以及环境信息给出具有更高安全性的无人驾驶决策,达到提高无人驾驶安全性的目的。首先对检测到的障碍物根据障碍物的安全性等级进行分类,然后根据不同类型障碍物提出安全评估函数,利用位置的不确定性和基于距离的安全度量来评估安全性,接着CSDQN决策框架利用障碍物类型、相对位置信息以及安全评估函数进行不断迭代优化获得最终模型。仿真结果表明,与先进的深度强化学习进行比较,在多种障碍物的情况下,采用CSDQN方法相较于DQN和SDQN方法分别提升了43.9%和4.2%的安全性,以及17.8%和3.7%的稳定性。 展开更多
关键词 无人驾驶 深度Q网络 分类避障 评估函数 安全性
在线阅读 下载PDF
基于DQN和功率分配的FDA-MIMO雷达抗扫频干扰
15
作者 周长霖 王春阳 +3 位作者 宫健 谭铭 包磊 刘明杰 《雷达科学与技术》 北大核心 2024年第2期155-160,169,共7页
频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频... 频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频率分集阵列-多输入多输出(Frequency Diversity Array-Multiple Input Multiple Output,FDA-MIMO)雷达与电磁干扰环境交互模型,使得FDA-MIMO雷达能够在与电磁环境交互过程中,感知干扰抑制干扰。其次,本文提出了一种基于深度Q网络(Deep Q-Network,DQN)和FDA-MIMO雷达发射功率分配的扫频干扰抑制方法,使得雷达系统能够在充分利用频谱资源的情况下最大化SINR。最后,仿真结果证实,在强化学习框架下,FDA-MIMO雷达能够通过对发射功率分配进行优化,完成干扰抑制,提升雷达性能。 展开更多
关键词 频率分集阵列 扫频干扰 强化学习 深度Q网络 功率分配
在线阅读 下载PDF
基于DQN算法的农用无人车作业路径规划 被引量:1
16
作者 庄金炜 张晓菲 +1 位作者 尹琪东 陈克 《沈阳理工大学学报》 CAS 2024年第4期32-37,共6页
传统农用无人车作业时常依据人工经验确定作业路线,面对复杂的作业环境时无法保证路径规划的高效性,且传统覆盖路径规划方法聚焦于覆盖率而忽略了车辆作业路线上的损耗。为此,提出一种以减少车辆在路线上的损耗为目标的最优全局覆盖路... 传统农用无人车作业时常依据人工经验确定作业路线,面对复杂的作业环境时无法保证路径规划的高效性,且传统覆盖路径规划方法聚焦于覆盖率而忽略了车辆作业路线上的损耗。为此,提出一种以减少车辆在路线上的损耗为目标的最优全局覆盖路径规划方法。以深度Q网络(DQN)算法为基础,根据作业时车辆的真实轨迹创建奖励策略(RLP),对车辆在路线上的损耗进行优化,减少车辆的转弯数、掉头数及重复作业面积,设计了RLP-DQN算法。仿真实验结果表明,对比遗传算法、A~*算法等传统路径规划方法,本文RLP-DQN算法综合性能较好,可在实现全覆盖路径规划的同时有效减少路线损耗。 展开更多
关键词 农用无人车 路径规划 深度强化学习 dqn算法
在线阅读 下载PDF
未知环境下基于Dueling DQN的无人机路径规划研究 被引量:1
17
作者 赵恬恬 孔建国 +1 位作者 梁海军 刘晨宇 《现代计算机》 2024年第5期37-43,共7页
为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;... 为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;最后在仿真环境中对DQN和Dueling DQN展开训练,结果表明:①Dueling DQN能规划出未知环境下从初始点到目标点的无碰撞路径,且能获得更高的奖励值;②经过50000次训练,Dueling DQN的成功率比DQN提高17.71%,碰撞率减少1.57%,超过最长步长率降低16.14%。 展开更多
关键词 无人机 路径规划 深度强化学习 Dueling dqn算法
在线阅读 下载PDF
基于Dueling DQN算法的列车运行图节能优化研究
18
作者 刘飞 唐方慧 +3 位作者 刘琳婷 胡文斌 哈进兵 钱程 《都市快轨交通》 北大核心 2024年第2期39-46,共8页
通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,... 通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,建立基于区间动态客流概率统计的时刻表迭代优化模型,降低动态客流变化对节能率的影响。对预测Q网络和目标Q网络分别选取自适应时刻估计和均方根反向传播方法,提高模型收敛快速性,同时以时刻表优化前、后总运行时间不变、乘客换乘时间和等待时间最小为优化目标,实现节能时刻表无感切换。以苏州轨道交通4号线为例验证方法的有效性,节能对比试验结果表明:在到达换乘站时刻偏差不超过2 s和列车全周转运行时间不变的前提下,列车牵引节能率达5.27%,车公里能耗下降4.99%。 展开更多
关键词 城市轨道交通 时刻表优化 牵引节能 Dueling dqn 动态客流
在线阅读 下载PDF
基于DQN的多智能体深度强化学习运动规划方法 被引量:4
19
作者 史殿习 彭滢璇 +3 位作者 杨焕焕 欧阳倩滢 张玉晖 郝锋 《计算机科学》 CSCD 北大核心 2024年第2期268-277,共10页
DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对... DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对这些问题,提出了一种基于DQN的多智能体深度强化学习运动规划方法,该方法可以帮助智能体学习到高效稳定的运动规划策略,无碰撞地到达目标点。首先,在DQN方法的基础上,提出了基于Dueling的Q值计算优化机制,将Q值的计算方式改进为计算状态值和优势函数值,并根据当前正在更新的Q值网络的参数选择最优动作,使得Q值的计算更加简单准确;其次,提出了基于GRU的记忆机制,引入了GRU模块,使得网络可以捕捉时序信息,具有处理智能体历史信息的能力;最后,提出了基于噪声的有效探索机制,通过引入参数化的噪声,改变了DQN中的探索方式,提高了智能体的探索效率,使得多智能体系统达到探索-利用的平衡状态。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,所提方法可以使多智能体团队进行高效协作,无碰撞地到达各自目标点,且策略训练过程稳定。 展开更多
关键词 多智能体系统 运动规划 深度强化学习 dqn方法
在线阅读 下载PDF
融合速度障碍法和DQN的无人船避障方法
20
作者 宗律 李立刚 +2 位作者 贺则昊 韩志强 戴永寿 《电子测量技术》 北大核心 2024年第20期60-67,共8页
为提高无人船(USV)动态避障的安全性与经济性,提出了一种融合速度障碍法和深度Q网络(DQN)的无人船避障方法。首先,在计算传统速度障碍物相对碰撞区域时,考虑障碍物未来时刻运动信息,改善传统速度障碍法因忽略障碍物即时位置变化从而导... 为提高无人船(USV)动态避障的安全性与经济性,提出了一种融合速度障碍法和深度Q网络(DQN)的无人船避障方法。首先,在计算传统速度障碍物相对碰撞区域时,考虑障碍物未来时刻运动信息,改善传统速度障碍法因忽略障碍物即时位置变化从而导致避障失败的问题。其次,将碰撞危险度系数引入DQN状态空间中,优先选取危险度系数最高的障碍物作为避障对象,改善状态空间信息冗余问题。再次,根据改进速度障碍法避障思想重新设计奖励函数,确定无人船避障时机与转向角度,解决传统DQN的奖励稀疏问题,提高其学习效率与收敛速度。最后,为验证该方法性能,与3种主流避障方法进行了仿真实验,实验结果表明,该方法能够为无人船提供合适的避障方向,使无人船航行路径更为经济和安全。此外,通过实船实验验证了该方法具有一定的工程实用价值。 展开更多
关键词 无人船 避障 dqn 奖励函数 速度障碍法
在线阅读 下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部