期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于样本优化的PPO算法在单路口信号控制的应用
1
作者 张国有 张新武 《计算机系统应用》 2024年第6期161-168,共8页
优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中... 优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中代理目标函数进行最大化提取,有效提高了模型选择样本的质量,采用多维交通状态向量作为模型观测值的输入方法,以及时跟踪并利用道路交通状态的动态变化过程.为了验证MPPO算法模型的准确性和有效性,在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比.仿真实验表明,相比于值函数强化学习控制方法,该方法更贴近真实的交通场景,显著加快了车辆累计等待时间的收敛速度,车辆的平均队列长度和平均等待时间明显缩短,有效提高了单路口车辆的通行效率. 展开更多
关键词 交通信号控制 深度强化学习 近端策略优化算法 代理目标函数 状态特征向量
在线阅读 下载PDF
应用于中国贸易政策内生化的模型综合 被引量:19
2
作者 谷克鉴 《经济研究》 CSSCI 北大核心 2003年第9期58-66,共9页
本文借国际贸易模型和制度经济学解析代理人目标函数 ,构造出满足转型经济需要的单部门和多部门模型及其演进路径 ,突出强调部门间利益表达能力和国家间实施贸易政策的治理结构差异对于代理人行为的意义。同时 ,通过观察 2 0世纪以来贸... 本文借国际贸易模型和制度经济学解析代理人目标函数 ,构造出满足转型经济需要的单部门和多部门模型及其演进路径 ,突出强调部门间利益表达能力和国家间实施贸易政策的治理结构差异对于代理人行为的意义。同时 ,通过观察 2 0世纪以来贸易政策实践 ,运用不变和可变替代弹性模型分别构造非谈判均衡约束和均衡谈判约束条件的贸易政策内生化模型。 展开更多
关键词 中国 贸易政策 内生化 计量模型 政治经济方法 国际贸易 H-O出口目标函数 R-V出口目标函数 代理目标函数 代理 政策需求 政策影响行为
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部