期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于改进DQN算法的应召搜潜无人水面艇路径规划方法 被引量:1
1
作者 牛奕龙 杨仪 +3 位作者 张凯 穆莹 王奇 王英民 《兵工学报》 EI CAS CSCD 北大核心 2024年第9期3204-3215,共12页
针对应召反潜中无人水面艇航向和航速机动的情形,提出一种基于改进深度Q学习(Deep Q-learning,DQN)算法的无人艇路径规划方法。结合应召搜潜模型,引入改进的深度强化学习(Improved-DQN,I-DQN)算法,通过联合调整无人水面艇(Unmanned Surf... 针对应召反潜中无人水面艇航向和航速机动的情形,提出一种基于改进深度Q学习(Deep Q-learning,DQN)算法的无人艇路径规划方法。结合应召搜潜模型,引入改进的深度强化学习(Improved-DQN,I-DQN)算法,通过联合调整无人水面艇(Unmanned Surface Vessel,USV)的动作空间、动作选择策略和奖励等,获取一条最优路径。算法采用时变动态贪婪策略,根据环境和神经网络的学习效果自适应调整USV动作选择,提高全局搜索能力并避免陷入局部最优解;结合USV所处的障碍物环境和当前位置设置分段非线性奖惩函数,保证不避碰的同时提升算法收敛速度;增加贝塞尔算法对路径平滑处理。仿真结果表明,在相同环境下新方法规划效果优于DQN算法、A^(*)算法和人工势场算法,具有更好的稳定性、收敛性和安全性。 展开更多
关键词 无人水面艇 路径规划 深度q学习算法 应召搜索
在线阅读 下载PDF
基于深度Q学习的含用户侧储能微电网频率-电压数字化智能控制策略 被引量:11
2
作者 林日晖 陈友立 《中国电力》 CSCD 北大核心 2022年第12期43-50,共8页
频率与电压是衡量电能指标的重要标准。针对微电网受到负荷波动而引起的频率/电压调控问题,提出基于深度Q学习(deep Q-learning,DQN)的含用户侧储能微电网智能监控-控制策略。首先,通过考虑用户行为的随机性,增加了用户侧储能输出的随... 频率与电压是衡量电能指标的重要标准。针对微电网受到负荷波动而引起的频率/电压调控问题,提出基于深度Q学习(deep Q-learning,DQN)的含用户侧储能微电网智能监控-控制策略。首先,通过考虑用户行为的随机性,增加了用户侧储能输出的随机约束,并引入四象限充放电的模型,构建用户侧储能的集群充放电模型,从而搭建出微电网频率-电压的协同控制模型。其次,设计基于DQN的频率/电压控制器结构与数字化智能控制平台,以系统实时的频率偏差、电压偏差与用户侧储能输出功率的上、下限约束为状态空间,以系统各机组出力为动作空间,并基于频率及电压2个控制目标,完成包含2个本地奖励的全局奖励函数的设计。算例结果表明:与传统PID控制器相比,所提DQN控制器能同时满足频率与电压的控制需求,更有效地应对负荷波动所引起的电能质量问题。 展开更多
关键词 孤岛微电网 用户侧储能 频率/电压协调控制 深度q学习算法 数字化平台
在线阅读 下载PDF
基于改进DQN强化学习算法的弹性光网络资源分配研究 被引量:3
3
作者 尚晓凯 韩龙龙 翟慧鹏 《光通信技术》 2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现... 针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 展开更多
关键词 弹性光网络 改进深度q网络强化学习算法 资源分配
在线阅读 下载PDF
基于随机方差减小方法的DDPG算法 被引量:3
4
作者 杨薛钰 陈建平 +2 位作者 傅启明 陆悠 吴宏杰 《计算机工程与应用》 CSCD 北大核心 2021年第19期104-111,共8页
针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优... 针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机方差减小梯度技术,利用该方法的更新方式,使得估计的梯度方差有一个不断减小的上界,令方差不断缩小,从而在小的随机训练子集的基础上找到更加精确的梯度方向,以此来解决了由近似梯度估计误差引发的问题,加快了算法的收敛速度。将SVR-DDPG算法以及DDPG算法应用于Pendulum和Mountain Car问题,实验结果表明,SVR-DDPG算法具有比原算法更快的收敛速度,更好的稳定性,以此证明了算法的有效性。 展开更多
关键词 深度强化学习 深度q学习算法(DqN) 深度确定性策略梯度算法(DDPG) 随机方差缩减梯度技术
在线阅读 下载PDF
能源互联网下局域能源微网能量调度算法研究
5
作者 靳显智 王叶 +2 位作者 徐仁 林霏 邵文艺 《齐鲁工业大学学报》 CAS 2022年第1期50-58,共9页
局域能源微网是一种区域性的能源自治组织,由于能源互联网的整体建设具有时间跨度长和区域协调复杂的特点,局域能源微网是现阶段能源互联网建设的核心。局域能源微网能够从可再生资源中产生有限的能量,并负责区域内用户的需求。但是由... 局域能源微网是一种区域性的能源自治组织,由于能源互联网的整体建设具有时间跨度长和区域协调复杂的特点,局域能源微网是现阶段能源互联网建设的核心。局域能源微网能够从可再生资源中产生有限的能量,并负责区域内用户的需求。但是由于可再生能源发电和用户需求的随机性和波动性,每个局域微网必须对能量进行优化管理和调度。这要求能够合理的安排用户的需求,以及能够处理好相邻微网之间的交易。通常,局域能源微网之间的电力交易由广域中央电网进行定价。针对用户需求、电池储能、能源调配和动态定价提出了一种新的方法,利用一种新的深度Q学习算法,通过创建两个独立的神经网络实现对能源微网的调度优化。通过广泛的实证评估表明,提出的框架更有利于大多数能源微网,另外提供了详细的结果分析。 展开更多
关键词 局域能源微网 能源互联网 能量调度 动态定价 深度q学习算法
在线阅读 下载PDF
联邦强化学习文献综述 被引量:1
6
作者 李骏琪 邵俊 蔺静茹 《金融科技时代》 2021年第10期87-89,共3页
深度学习技术能够快速有效地从大量历史数据中学习规律和模式,但很多实际应用场景无法提供足够的训练数据,且要求模型对外部环境的变化快速作出反应。近一年来,联邦强化学习的发展为解决以上行业痛点带来了新思路,联邦强化学习不仅可以... 深度学习技术能够快速有效地从大量历史数据中学习规律和模式,但很多实际应用场景无法提供足够的训练数据,且要求模型对外部环境的变化快速作出反应。近一年来,联邦强化学习的发展为解决以上行业痛点带来了新思路,联邦强化学习不仅可以在隐私保护的条件下扩大样本数据,而且训练出的智能体可以跟随外部环境的变化作出合适的决策,比传统监督学习具有更好的泛化性和自适应性。本文总结了近一年来联邦强化学习的研究成果,包括基于深度Q学习算法和演员评论家算法的联邦强化学习算法,并从联邦模式、隐私保护和应用场景3方面展望其未来的研究方向。 展开更多
关键词 联邦强化学习 隐私保护 深度q学习算法 演员评论家算法
在线阅读 下载PDF
基于深度Q学习的含电动汽车孤岛微电网负荷频率控制策略 被引量:20
7
作者 范培潇 杨军 +4 位作者 肖金星 徐冰雁 叶影 李勇汇 李蕊 《电力建设》 CSCD 北大核心 2022年第4期91-99,共9页
负荷频率控制对维持孤岛微电网的稳定运行有着至关重要的意义。针对微电网受到强随机扰动和网络拓扑参数改变时的频率控制问题,文章提出了基于深度Q学习(deep Q-learning, DQN)的含电动汽车孤岛微电网负荷频率控制策略。首先,建立了考... 负荷频率控制对维持孤岛微电网的稳定运行有着至关重要的意义。针对微电网受到强随机扰动和网络拓扑参数改变时的频率控制问题,文章提出了基于深度Q学习(deep Q-learning, DQN)的含电动汽车孤岛微电网负荷频率控制策略。首先,建立了考虑用户充电行为随机性的集群电动汽车频率控制模型,从而搭建出包含光伏、风电、微型燃气轮机、电动汽车及其随机功率增量约束的微电网负荷频率控制(load frequency control, LFC)模型。其次,设计了基于DQN的频率控制器结构,并依次完成了状态空间、动作空间以及奖励函数的定义,并通过调节得到了最优超参数。最后,仿真结果表明,与PI控制、FUZZY控制相比,文章所提出的DQN控制器具备在线学习和经验回放能力,能更有效地应对强随机性的微电网LFC问题,同时也能更好地适应系统网络拓扑参数与结构改变的复杂运行工况。 展开更多
关键词 孤岛微电网 电动汽车 频率控制 深度q学习算法
原文传递
基于正交试验的感应控制参数组合优化 被引量:2
8
作者 王志建 龙顺忠 李颖宏 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第6期1128-1136,共9页
针对随机流量波动较大的交叉口,提出优化感应控制策略,采用正交试验方法获取最优控制参数组合.将最大排队长度作为通行需求阈值来优化感应控制逻辑,将设置的3种相位切换机制(优先排队、优先延误和固定顺序)加入感应控制参数组合中.在SUM... 针对随机流量波动较大的交叉口,提出优化感应控制策略,采用正交试验方法获取最优控制参数组合.将最大排队长度作为通行需求阈值来优化感应控制逻辑,将设置的3种相位切换机制(优先排队、优先延误和固定顺序)加入感应控制参数组合中.在SUMO仿真中,模拟北京市北辰西路与科荟南路交叉口环境,采用正交试验方法筛选出不同交通流量下感应控制的最优参数组合.设计对比实验验证最优参数组合的有效性,将最优参数组合应用在深度Q学习(DQN)算法中进一步优化感应控制.结果表明,正交试验方法能够快速有效地获取最优参数组合;在低、中等交通流量下,与未使用最优参数组合的DQN算法相比,使用最优参数组合的DQN算法的收敛速度分别增加了48.14%、38.89%,平均累计车均延误分别减少了8.45%、7.09%. 展开更多
关键词 信号交叉口 感应控制 影响参数 正交试验 深度q学习(DqN)算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部