-
题名基于样本优化的PPO算法在单路口信号控制的应用
- 1
-
-
作者
张国有
张新武
-
机构
太原科技大学计算机科学与技术学院
-
出处
《计算机系统应用》
2024年第6期161-168,共8页
-
基金
国家自然科学基金(62072325)
山西省自然科学基金(202203021221145)
+1 种基金
太原科技大学科技创新基金(20212039)
山西省基础研究计划(202103021224272)。
-
文摘
优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中代理目标函数进行最大化提取,有效提高了模型选择样本的质量,采用多维交通状态向量作为模型观测值的输入方法,以及时跟踪并利用道路交通状态的动态变化过程.为了验证MPPO算法模型的准确性和有效性,在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比.仿真实验表明,相比于值函数强化学习控制方法,该方法更贴近真实的交通场景,显著加快了车辆累计等待时间的收敛速度,车辆的平均队列长度和平均等待时间明显缩短,有效提高了单路口车辆的通行效率.
-
关键词
交通信号控制
深度强化学习
近端策略优化算法
代理目标函数
状态特征向量
-
Keywords
traffic signal control
deep reinforcement learning
proximal policy optimization(PPO)algorithm
surrogate objective function
state feature vector
-
分类号
U491.54
[交通运输工程—交通运输规划与管理]
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名应用于中国贸易政策内生化的模型综合
被引量:19
- 2
-
-
作者
谷克鉴
-
机构
中国人民大学商学院
-
出处
《经济研究》
CSSCI
北大核心
2003年第9期58-66,共9页
-
文摘
本文借国际贸易模型和制度经济学解析代理人目标函数 ,构造出满足转型经济需要的单部门和多部门模型及其演进路径 ,突出强调部门间利益表达能力和国家间实施贸易政策的治理结构差异对于代理人行为的意义。同时 ,通过观察 2 0世纪以来贸易政策实践 ,运用不变和可变替代弹性模型分别构造非谈判均衡约束和均衡谈判约束条件的贸易政策内生化模型。
-
关键词
中国
贸易政策
内生化
计量模型
政治经济方法
国际贸易
H-O出口目标函数
R-V出口目标函数
代理人目标函数
代理人
政策需求
政策影响行为
-
Keywords
Trade Policy
Econometric Model
Political Economy Approach
-
分类号
F740
[经济管理—国际贸易]
-