期刊文献+
共找到201篇文章
< 1 2 11 >
每页显示 20 50 100
基于卷积金字塔网络的PPO算法求解作业车间调度问题
1
作者 徐帅 李艳武 +1 位作者 谢辉 牛晓伟 《现代制造工程》 北大核心 2025年第3期19-30,共12页
作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网... 作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网络(Convolutional Neural Network,CNN)的深度强化学习(Deep Reinforcement Learning,DRL)调度方法。设计了一种三通道状态表示方法,选取16种启发式调度规则作为动作空间,将奖励函数等价为最小化机器总空闲时间。为使训练得到的调度策略能够处理不同规模的调度算例,在卷积神经网络中使用空间金字塔池化(Spatial Pyramid Pooling,SPP),将不同维度的特征矩阵转化为固定长度的特征向量。在公开OR-Library的42个作业车间调度(Job-Shop Scheduling Problem,JSSP)算例上进行了计算实验。仿真实验结果表明,该算法优于单一启发式调度规则和遗传算法,在大部分算例中取得了比现有深度强化学习算法更好的结果,且平均完工时间最小。 展开更多
关键词 深度强化学习 作业车间调度 卷积神经网络 近端策略优化 空间金字塔池化
在线阅读 下载PDF
自适应奖励函数的PPO曲面覆盖方法
2
作者 李淑怡 阳波 +2 位作者 陈灵 沈玲 唐文胜 《计算机工程》 北大核心 2025年第3期86-94,共9页
针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面... 针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面模型;其次,以曲面局部点云的覆盖状态特征和曲率变化特征作为曲面模型观测值以构建状态模型,有利于机器人移动轨迹拟合曲面,提高机器人对曲面变化的适应能力;接着,基于曲面的全局覆盖率和与时间相关的指数模型构建一种自适应奖励函数,引导机器人向未覆盖区域移动,提高覆盖效率;最后,将曲面局部状态模型、奖励函数、PPO强化学习算法相融合,训练机器人完成曲面覆盖路径规划任务。在球形、马鞍形、立体心形等3种曲面模型上,以点云覆盖率与覆盖完成时间作为主要评价指标进行实验,结果表明,SC-SRPPO的平均覆盖率为90.72%,与NSGA Ⅱ、PPO、SAC这3种方法对比,覆盖率分别提升4.98%、14.56%、27.11%,覆盖完成时间分别缩短15.20%、67.18%、62.64%。SC-SRPPO能够在适应曲面变化的基础上使机器人更加高效地完成曲面覆盖任务。 展开更多
关键词 清洁机器人 曲面 覆盖路径规划 强化学习 近端策略优化
在线阅读 下载PDF
基于ASPPO的侧风着陆训练策略优化
3
作者 李嘉伟 高振兴 +2 位作者 孙瑾 张洋洋 孔维武 《航空计算技术》 2025年第1期76-81,共6页
传统侧风着陆训练依赖于经验式讲解,在复杂的侧风条件下训练质量较低。为提升民用飞机侧风着陆任务的安全性,提出一种改进侧风着陆训练的方法。该方法基于复杂飞行动作构建混合动作决策网络,结合飞行手册安全要求设计了奖励函数,提出使... 传统侧风着陆训练依赖于经验式讲解,在复杂的侧风条件下训练质量较低。为提升民用飞机侧风着陆任务的安全性,提出一种改进侧风着陆训练的方法。该方法基于复杂飞行动作构建混合动作决策网络,结合飞行手册安全要求设计了奖励函数,提出使用动作分离近端策略优化算法训练策略网络生成侧风着陆下的最优决策动作序列;进一步,基于模式序列挖掘算法得到最大频繁动作序列模式,通过与飞行员训练实际操作动作序列对比指导飞行员侧风着陆训练。在不同侧风条件下实验结果表明训练的决策网络可以实现既定的着陆策略,同时通过挖掘得到的最大频繁动作序列模式与飞行员操作对比,能及时发现飞行员错漏、多余、偏时等问题,有利于提升飞行员训练效果。 展开更多
关键词 侧风着陆 仿真 强化学习 近端策略优化
在线阅读 下载PDF
基于PPO算法的逻辑综合序列优化通用框架设计
4
作者 王梦可 杨朝晖 +1 位作者 查晓婧 夏银水 《宁波大学学报(理工版)》 2025年第2期78-85,共8页
逻辑综合通常采用启发式方法将逻辑优化算法组成为序列进行电路性能优化,而启发式方法难以根据电路和优化目标的差异进行序列自动化调节,影响了电路优化质量.为了在集成电路设计中提升序列的自适应生成能力,将序列优化问题建模为马尔可... 逻辑综合通常采用启发式方法将逻辑优化算法组成为序列进行电路性能优化,而启发式方法难以根据电路和优化目标的差异进行序列自动化调节,影响了电路优化质量.为了在集成电路设计中提升序列的自适应生成能力,将序列优化问题建模为马尔可夫决策过程,提出一种面向多种逻辑表示的强化学习框架,利用近端策略优化(Proximal Policy Optimization,PPO)指导智能体来探索序列优化空间,改善其生成序列的泛化能力.并将EPFL基准电路转变为与-非图(And-Inverter Graph,AIG)和异或多数图(Xor-MajorityGraph,XMG)形式,分别经由所提出的框架进行实验,AIG形式下本文方法与DRiLLS和BOiLS方法相比分别有18.66百分点和27.67百分点的性能提升;XMG形式下则可提升原始电路性能约37.34%.实验结果表明,由本文方法生成的算法序列对电路性能有较大改进. 展开更多
关键词 逻辑综合 序列优化 强化学习 近端策略优化
在线阅读 下载PDF
基于MDE-PPO算法的配电网多时间尺度无功优化
5
作者 尹力 盛俊杰 +3 位作者 杨帆 袁杰 朱陶之 冯燕钧 《电气自动化》 2025年第1期79-81,85,共4页
考虑配电网不同设备动作特性,提出了一种多时间尺度无功优化策略。首先,建立计及分布式能源的配电网无功优化模型以降低网络损耗与电压偏移;其次,将短时间尺度决策问题建立为马尔科夫决策过程以便深度强化学习算法的优化训练;然后,提出... 考虑配电网不同设备动作特性,提出了一种多时间尺度无功优化策略。首先,建立计及分布式能源的配电网无功优化模型以降低网络损耗与电压偏移;其次,将短时间尺度决策问题建立为马尔科夫决策过程以便深度强化学习算法的优化训练;然后,提出一种基于电压偏差的改进差分进化算法,并构建了改进差分进化-近端策略优化算法协同训练架构以满足不同时间尺度动作设备的调度需求;最后,在修改的IEEE 33节点系统上进行仿真。结果表明,所提方法能够有效抑制电压波动并降低网络损耗,具有实际的应用价值。 展开更多
关键词 配电网 深度强化学习 改进差分进化 近端策略优化 多时间尺度无功优化
在线阅读 下载PDF
基于自注意力PPO算法的智能配电网多设备协同无功优化控制策略 被引量:1
6
作者 张黎元 宋兴旺 +3 位作者 李冰洁 梁睿 刘长德 彭奕洲 《智慧电力》 北大核心 2024年第10期40-48,共9页
针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近... 针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近端策略优化(PPO)算法对策略网络进行优化训练,算法采用多头自注意力网络获取配电网的实时状态特征,并通过剪切策略梯度法动态控制策略网络的更新幅度;最后,在改进IEEE69节点系统进行仿真验证。结果表明,所提算法的控制性能优于现有先进强化学习算法。 展开更多
关键词 配电网 分布式光伏 电压无功控制 多头自注意力 近端策略优化算法
在线阅读 下载PDF
基于PPO算法的CIES低碳优化调度方法
7
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 近端策略优化(ppo)算法 阶梯式碳交易机制 惩罚系数 碳排放
在线阅读 下载PDF
基于样本优化的PPO算法在单路口信号控制的应用
8
作者 张国有 张新武 《计算机系统应用》 2024年第6期161-168,共8页
优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中... 优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中代理目标函数进行最大化提取,有效提高了模型选择样本的质量,采用多维交通状态向量作为模型观测值的输入方法,以及时跟踪并利用道路交通状态的动态变化过程.为了验证MPPO算法模型的准确性和有效性,在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比.仿真实验表明,相比于值函数强化学习控制方法,该方法更贴近真实的交通场景,显著加快了车辆累计等待时间的收敛速度,车辆的平均队列长度和平均等待时间明显缩短,有效提高了单路口车辆的通行效率. 展开更多
关键词 交通信号控制 深度强化学习 近端策略优化算法 代理目标函数 状态特征向量
在线阅读 下载PDF
基于PER-PPO2的入侵检测技术
9
作者 黄迎春 任国杰 《沈阳理工大学学报》 CAS 2024年第5期7-13,共7页
随着万物信息化与智能化的快速发展,网络攻击范围不断扩大。传统的入侵检测算法,如主成分分析(PCA)结合随机森林和K近邻等,由于网络数据繁多,特征提取能力较差,分类准确率低。针对上述问题,提出一种新的入侵检测技术,称为优先经验采样... 随着万物信息化与智能化的快速发展,网络攻击范围不断扩大。传统的入侵检测算法,如主成分分析(PCA)结合随机森林和K近邻等,由于网络数据繁多,特征提取能力较差,分类准确率低。针对上述问题,提出一种新的入侵检测技术,称为优先经验采样的近端策略优化裁剪(prioritized experience replay-proximal policy optimization clip, PER-PPO2)算法,基于强化学习实现包裹法特征选择。深度强化学习通过构建以分类器混淆矩阵为基础的奖励函数,使智能体根据奖励反馈选择分类器的较优特征,结合优先经验采样优化算法的训练样本,提高算法的稳定性与收敛性能;使用性能较优的轻量级梯度提升机(LightGBM)作为分类器。使用NSL-KDD数据集对模型进行实验评估,结果表明模型将数据集的41维特征降低为8维时分类F1值达到0.871 3,可以满足入侵检测的要求。 展开更多
关键词 近端策略优化裁剪 优先经验采样 入侵检测 深度强化学习 LightGBM
在线阅读 下载PDF
基于PPO算法的电热氢耦合综合能源系统优化调度 被引量:2
10
作者 梁涛 张晓婵 +2 位作者 谭建鑫 井延伟 吕梁年 《太阳能学报》 EI CAS CSCD 北大核心 2024年第11期73-83,共11页
为改变“源随荷动”的传统运作模式并增加储能,实现能源网、负荷、储能等各环节协调互动,建立电热氢耦合综合能源系统(ETHC-IES)优化调度,其中应用氢储能实现安全稳定运行的“源-网-荷-储”的新型综合能源系统成为目前的研究热点。以降... 为改变“源随荷动”的传统运作模式并增加储能,实现能源网、负荷、储能等各环节协调互动,建立电热氢耦合综合能源系统(ETHC-IES)优化调度,其中应用氢储能实现安全稳定运行的“源-网-荷-储”的新型综合能源系统成为目前的研究热点。以降低综合能源系统运行成本并减少弃风弃光为目标,将ETHC-IES优化调度问题转换为马尔可夫决策过程(MDP),提出应用基于连续动作的近端策略优化算法(PPO)的综合能源系统优化调度方法。首先建立电热氢储能各部分的数学模型,综合考虑功率平衡,安全状态等约束条件,然后采用PPO算法对模型进行求解,以提高经济性和减少弃风弃光为优化目标,重新设计深度强化学习模型的动作空间、状态空间、奖励函数等,智能体通过训练学习实现ETHC-IES的动态调度优化决策。最后,通过仿真验证所提出模型和优化方法的有效性和优越性。 展开更多
关键词 强化学习 储能 可再生能源 近端策略优化 ETHC-IES
在线阅读 下载PDF
面向无人机集群察打场景的PPO算法设计 被引量:1
11
作者 李俊慧 张振华 +2 位作者 边疆 聂天常 车博山 《火力与指挥控制》 CSCD 北大核心 2024年第3期25-34,共10页
无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任... 无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任务决策的复杂性与战场环境不确定性。设计通用性较强的状态空间、奖励函数、动作空间和策略网络,其中,为捕捉多元态势信息,设计并处理了多种类型特征作为状态空间,同时设计与察打任务紧密相关的多种类型奖励;动作策略输出采取主谓宾的形式,更好表达复杂操作;策略网络设计了编码器-时序聚合-注意力机制-解码器结构,充分融合特征信息,促进了训练效果。基于近端策略优化算法(proximal policy optimization,PPO)的深度强化学习(deep reinforcement learning,DRL)进行求解。最后,通过仿真环境实验验证了无人机集群在复杂不确定条件下实现察打任务决策的可行性和有效性,展现了集群任务分配与运动规划的智能性。 展开更多
关键词 近端策略优化算法设计 任务分配 运动规划 侦察打击 决策
在线阅读 下载PDF
基于注意力的循环PPO算法及其应用
12
作者 吕相霖 臧兆祥 +1 位作者 李思博 王俊英 《计算机技术与发展》 2024年第1期136-142,共7页
针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信... 针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信息;再次通过LSTM网络提取数据的时域特性;最后基于Actor-Critic结构的PPO算法进行策略学习与训练提升。基于Gym-Minigrid环境设计了两项探索任务的消融与对比实验,实验结果表明ARPPO算法较已有的A2C算法、PPO算法、RPPO算法具有更快的收敛速度,且ARPPO算法在收敛之后具有很强的稳定性,并对存在随机因素的未知环境具备更强的适应力。 展开更多
关键词 深度强化学习 部分可观测 注意力机制 LSTM网络 近端策略优化算法
在线阅读 下载PDF
异构群智感知PPO多目标任务指派方法
13
作者 杨潇 郭一楠 +1 位作者 吉建娇 刘旭 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第6期1056-1066,共11页
现有移动群智感知系统的任务指派主要面向单一类型移动用户展开,对于存在多种类型移动用户的异构群智感知任务指派研究相对缺乏.为此,本文针对异质移动用户,定义其区域可达性,并给出感知子区域类型划分.进而,兼顾感知任务数量和移动用... 现有移动群智感知系统的任务指派主要面向单一类型移动用户展开,对于存在多种类型移动用户的异构群智感知任务指派研究相对缺乏.为此,本文针对异质移动用户,定义其区域可达性,并给出感知子区域类型划分.进而,兼顾感知任务数量和移动用户规模的时变性,构建了动态异构群智感知系统任务指派的多目标约束优化模型.模型以最大化感知质量和最小化感知成本为目标,综合考虑用户的最大任务执行数量、无人机的受限工作时间等约束.为解决该优化问题,本文提出一种基于近端策略优化的多目标进化优化算法.采用近端策略优化,根据种群的当前进化状态,选取具有最高奖励值的进化算子,生成子代种群.面向不同异构群智感知实例,与多种算法的对比实验结果表明,所提算法获得的Pareto最优解集具有最佳的收敛性和分布性,进化算子选择策略可以有效提升对时变因素的适应能力,改善算法性能. 展开更多
关键词 异构群智感知 多目标优化 强化学习 近端策略优化
在线阅读 下载PDF
基于PPO算法的不同驾驶风格跟车模型研究
14
作者 闫鑫 黄志球 +1 位作者 石帆 徐恒 《计算机科学》 CSCD 北大核心 2024年第9期223-232,共10页
自动驾驶对于减少交通堵塞、提高驾驶舒适性具有非常重要的作用,如何提高人们对自动驾驶技术的接受程度仍具有重要的研究意义。针对不同需求的人群定制不同的驾驶风格,可以帮助驾驶人理解自动驾驶行为,提高驾驶人的乘车体验,在一定程度... 自动驾驶对于减少交通堵塞、提高驾驶舒适性具有非常重要的作用,如何提高人们对自动驾驶技术的接受程度仍具有重要的研究意义。针对不同需求的人群定制不同的驾驶风格,可以帮助驾驶人理解自动驾驶行为,提高驾驶人的乘车体验,在一定程度上消除驾驶人对使用自动驾驶系统的心理抵抗性。通过分析自动驾驶场景下的跟车行为,提出基于PPO算法的不同驾驶风格的深度强化学习模型设计方案。首先分析德国高速公路车辆行驶数据集(HDD)中大量驾驶行为轨迹,根据跟车时距(THW)、跟车距离(DHW)、行车加速度以及跟车速度特征进行归类,提取激进型的驾驶风格和稳健型的驾驶风格的特征数据,以此为基础编码能够反映驾驶人风格的奖励函数,经过迭代学习生成不同驾驶风格的深度强化学习模型,并在highway env平台上进行道路模拟。实验结果表明,基于PPO算法的不同风格驾驶模型具有完成任务目标的能力,且与传统的智能驾驶模型(IDM)相比,能够在驾驶行为中准确反映出不同的驾驶风格。 展开更多
关键词 自动驾驶 智能驾驶模型 强化学习 ppo算法 主成分分析 K-MEANS
在线阅读 下载PDF
基于PPO算法的四旋翼无人机位置控制
15
作者 杨宗月 刘磊 刘晨 《计算机仿真》 2024年第2期462-467,521,共7页
针对四旋翼无人机的悬停控制及轨迹跟踪问题,利用近端策略优化算法来控制四旋翼飞行器,通过强化学习训练神经网络,将状态直接映射到四个旋翼,是一种用于在未知动态参数和干扰下控制任何线性或非线性系统的技术。基于回报塑形技术(The re... 针对四旋翼无人机的悬停控制及轨迹跟踪问题,利用近端策略优化算法来控制四旋翼飞行器,通过强化学习训练神经网络,将状态直接映射到四个旋翼,是一种用于在未知动态参数和干扰下控制任何线性或非线性系统的技术。基于回报塑形技术(The reward shaping of RL),提出了一种新颖的奖励函数,相比传统的PID算法,可以使无人机飞行更迅速且平稳。实验表明,四旋翼无人机可以以高精度高平稳的性能从三维中的定点悬停及轨迹跟踪,精度高达97.2%;文中的位置控制器具有泛化性和鲁棒性。 展开更多
关键词 无人机 四旋翼 强化学习 位置控制 近端策略优化
在线阅读 下载PDF
基于MAPPO的无信号灯交叉口自动驾驶决策
16
作者 许曼晨 于镝 +1 位作者 赵理 郭陈栋 《吉林大学学报(信息科学版)》 CAS 2024年第5期790-798,共9页
针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且... 针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且设计了综合考虑交通规则、安全到达或发生碰撞等安全性以及交叉口车辆最大、最小速度等车流效率的奖励函数,旨在实现安全高效的自动驾驶决策。仿真实验表明,所提出的自动驾驶决策方案在训练中相较于其他算法具有更出色的稳定性和收敛性,在不同车流密度下均呈现出更高的成功率和安全性。该自动驾驶决策方案在解决无信号灯交叉口环境方面具有显著潜力,并且为复杂路况自动驾驶决策的研究起到促进作用。 展开更多
关键词 自动驾驶 智能决策 无信号灯交叉口 MAppo算法
在线阅读 下载PDF
基于PPO的异构UUV集群任务分配算法
17
作者 董经纬 姚尧 +2 位作者 冯景祥 李亚哲 尤岳 《舰船科学技术》 北大核心 2024年第12期84-89,共6页
无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,... 无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,针对水下信息缺失、奖励稀少的问题,在近端策略优化算法的基础上加入Curiosity模块,给智能体一种减小环境中不确定性的期望,鼓励UUV探索环境中不可预测的部分,实现UUV集群的最优任务分配。最后的仿真实验表明,相较于传统智能算法,该方法收敛更快,可靠性更强。 展开更多
关键词 任务分配 近端策略优化算法 集群
在线阅读 下载PDF
基于LSTM–PPO算法的多机空战智能决策及目标分配
18
作者 丁云龙 匡敏驰 +2 位作者 朱纪洪 祝靖宇 乔直 《工程科学学报》 EI CSCD 北大核心 2024年第7期1179-1186,共8页
针对传统多机空战中智能决效率低、难以满足复杂空战环境的需求以及目标分配不合理等问题.本文提出一种基于强化学习的多机空战的智能决策及目标分配方法.使用长短期记忆网络(Long short-term memory,LSTM)对状态进行特征提取和态势感知... 针对传统多机空战中智能决效率低、难以满足复杂空战环境的需求以及目标分配不合理等问题.本文提出一种基于强化学习的多机空战的智能决策及目标分配方法.使用长短期记忆网络(Long short-term memory,LSTM)对状态进行特征提取和态势感知,将归一化和特征融合后的状态信息训练残差网络和价值网络,智能体通过近端优化策略(Proximal policy optimization,PPO)针对当前态势选择最优动作.以威胁评估指标作为分配依据,计算综合威胁度,优先将威胁值最大的战机作为攻击目标.为了验证算法的有效性,在课题组搭建的数字孪生仿真环境中进行4v4多机空战实验.并在相同的实验环境下与其他强化学习主流算法进行比较.实验结果表明,使用LSTM–PPO算法在多机空战中的胜率明显优于其他主流强化学习算法,验证了算法的有效性. 展开更多
关键词 多机空战 智能决策 近端优化策略 威胁评估 目标分配
在线阅读 下载PDF
干扰攻击下基于MAPPO的电视频谱资源分配研究
19
作者 赵越 杨亮 刘明轩 《电视技术》 2024年第3期199-205,共7页
将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网... 将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网络中存在随机和反应扫描两种干扰攻击,通过信道接入和功率分配,使次用户(Secondary Users,SUs)平均吞吐量最大化。将EH-CR网络建模为部分可观测的马尔可夫决策过程,提出了一个基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的联合信道和功率分配方法。仿真结果表明,提出的方法能够显著提高干扰攻击下SUs的平均吞吐量。 展开更多
关键词 认知无线电(CR) 干扰攻击 多智能体近端策略优化(MAppo) 资源分配
在线阅读 下载PDF
基于近端策略优化的两栖无人平台路径规划算法研究
20
作者 左哲 覃卫 +2 位作者 徐梓洋 李寓安 陈泰然 《北京理工大学学报》 EI CAS 北大核心 2025年第1期19-25,共7页
为解决水陆两栖无人平台在复杂环境中的路径规划问题,针对传统方法难以应对动态障碍物和多变环境的局限性,提出了一种基于近端策略优化(PPO)的路径规划算法,包含四种感知信息输入方案以及速度强化奖励函数,适应动态和静态环境.该算法通... 为解决水陆两栖无人平台在复杂环境中的路径规划问题,针对传统方法难以应对动态障碍物和多变环境的局限性,提出了一种基于近端策略优化(PPO)的路径规划算法,包含四种感知信息输入方案以及速度强化奖励函数,适应动态和静态环境.该算法通过批次函数正则化、策略熵引入和自适应裁剪因子,显著提升了算法的收敛速度和稳定性.研究中采用了ROS仿真平台,结合Flatland物理引擎和PedSim插件,模拟了包含动态障碍物的多种复杂场景.实验结果表明,采用BEV+V状态空间输入结构和离散动作空间的两栖无人平台,在路径规划中展现出高成功率和低超时率,优于传统方法和其他方案.仿真和对比实验显示采用鸟瞰图与速度组合的状态空间数据结构配合速度强化奖励函数算法提高了性能,收敛速度提高25.58%,路径规划成功率提升25.54%,超时率下降13.73%. 展开更多
关键词 路径规划 两栖 无人平台 近端策略优化(ppo)
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部