期刊文献+
共找到81篇文章
< 1 2 5 >
每页显示 20 50 100
Adaptive Modeling and Forecasting of Time Series by Combining the Methods of Temporal Differences with Neural Networks
1
作者 杨璐 洪家荣 黄梯云 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 1996年第1期94-98,共5页
This paper discusses the modeling method of time series with neural network. In order to improve the adaptability of direct multi-step prediction models, this paper proposes a method of combining the temporal differen... This paper discusses the modeling method of time series with neural network. In order to improve the adaptability of direct multi-step prediction models, this paper proposes a method of combining the temporal differences methods with back-propagation algorithm for updating the parameters continuously on the basis of recent data. This method can make the neural network model fit the recent characteristic of the time series as close as possible, therefore improves the prediction accuracy. We built models and made predictions for the sunspot series. The prediction results of adaptive modeling method are better than that of non-adaptive modeling methods. 展开更多
关键词 ss: NEURAL network TIME SERIES forecasting temporal differenceS methodS
在线阅读 下载PDF
TD再励学习在卫星姿态控制中的应用 被引量:1
2
作者 刘向东 崔晓婷 +1 位作者 王华 张宇河 《北京理工大学学报》 EI CAS CSCD 北大核心 2006年第3期248-250,共3页
随着卫星姿态控制系统对控制精度、鲁棒性和抗干扰要求的不断提高,将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,并采用基于时差(TD)法的再励学习来解决模糊神经网络参数在线调整的问题,可以在无需训练样本的前提下实现控制器的... 随着卫星姿态控制系统对控制精度、鲁棒性和抗干扰要求的不断提高,将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,并采用基于时差(TD)法的再励学习来解决模糊神经网络参数在线调整的问题,可以在无需训练样本的前提下实现控制器的在线学习.仿真结果表明,这种结合再励学习的控制算法不仅可以满足对姿态控制精度的要求,有效地抵制了外界干扰,并对卫星的不确定性有较强的鲁棒性. 展开更多
关键词 模糊神经网络 再励学习 时差法(td)
在线阅读 下载PDF
加权总场法在PSTD算法中的应用 被引量:2
3
作者 董慧 李清亮 闫玉波 《微波学报》 CSCD 北大核心 2004年第3期14-18,50,共6页
伪谱时域 (PSTD)方法可以处理电大尺寸目标电磁散射问题。本文介绍了一种能够把入射波有效引入PSTD计算区域的新方法———加权总场法。该方法通过引入类似于FDTD中连接边界的连接层 ,将计算区域划分为总场区、连接区和散射场区。为了... 伪谱时域 (PSTD)方法可以处理电大尺寸目标电磁散射问题。本文介绍了一种能够把入射波有效引入PSTD计算区域的新方法———加权总场法。该方法通过引入类似于FDTD中连接边界的连接层 ,将计算区域划分为总场区、连接区和散射场区。为了总场区和散射场区的连续 ,在连接区引入窗函数 ,通过设置 8 10层连接区就可以将入射波有效地引入到PSTD总场区。这样使入射波和目标分离 ,实现了复杂目标的单独建模 ,从而使PSTD便于模拟复杂目标的电磁散射。文中以高斯脉冲为入射波 ,通过二维情况下目标散射宽度的数值结果 。 展开更多
关键词 电磁散射 高斯脉冲 FDtd 散射场 目标散射 窗函数 加权 入射波 类似 连续
在线阅读 下载PDF
用FD-TD法计算吸波涂层的电磁波散射
4
作者 俞集辉 唐翠峰 黄键 《重庆大学学报(自然科学版)》 EI CAS CSCD 1998年第6期35-40,共6页
建立了适用于复合材料吸波涂层的时域有限差分法。通过计算吸波涂层的电磁波散射问题算例,并将计算所得数值解与解析解进行比较,论证了该算法的正确性。
关键词 电磁波散射 吸波涂层 FD-td 复合材料
在线阅读 下载PDF
帧差与时空图像测速相结合的非接触测流研究
5
作者 赵勤霞 顾声龙 +1 位作者 陈中华 柏文文 《测绘通报》 北大核心 2025年第2期28-34,共7页
天然河道流量监测工作是水文测验的重要工作之一,对水资源管理调度、防洪减灾等方面都发挥着至关重要的作用。时空图像测速(STIV)具有原理简单、实时性强、安全性高等优点。然而,该方法测量也具有一定的局限性,如在天然河道流速、流量... 天然河道流量监测工作是水文测验的重要工作之一,对水资源管理调度、防洪减灾等方面都发挥着至关重要的作用。时空图像测速(STIV)具有原理简单、实时性强、安全性高等优点。然而,该方法测量也具有一定的局限性,如在天然河道流速、流量较小、示踪不明显的情况下,生成的时空图不能产生有效的纹理结构,这极大地影响了纹理主方向的检测,从而影响了算法的准确性。针对上述问题,本文提出了一种帧间差分与局部傅里叶最大角度分析相结合的方法,利用帧间差分法计算出连续两帧图像之间像素差异,捕捉识别出河道发生细微变化的部分,得到的运动显著性图与原图像叠加,生成时空图像(STI),利用局部傅里叶最大角度分析的方法计算时空图的纹理主方向,因此,提高了时空图像测速算法的稳健性和准确性。最后利用天然河道拍摄的水流视频计算出的结果与流速仪法测得的结果进行比测试验。结果表明,在流速、流量较小、示踪不足的情况下,本文方法在纹理主方向、平均流速和流量计算上,精度有明显提升,流速测量的稳定性和实时性好。 展开更多
关键词 时空图像测速 帧差法 纹理主方向 局部傅里叶最大角度分析法
在线阅读 下载PDF
基于时空数据融合的塔吉克斯坦中高时空分辨率NDVI数据集(2010-2020)
6
作者 高超 任小丽 +4 位作者 曾纳 张心昱 张黎 何洪林 刘畅 《中国科学数据(中英文网络版)》 CSCD 2024年第3期12-20,共9页
归一化植被指数(Normalized Difference Vegetation Index,NDVI)是研究植被最常用的遥感指数之一。NDVI长时间序列数据对于植被变化研究有着重要的意义。然而由于传感器的限制,遥感数据的时间分辨率与空间分辨率不能兼顾,因此在目前广... 归一化植被指数(Normalized Difference Vegetation Index,NDVI)是研究植被最常用的遥感指数之一。NDVI长时间序列数据对于植被变化研究有着重要的意义。然而由于传感器的限制,遥感数据的时间分辨率与空间分辨率不能兼顾,因此在目前广泛使用的NDVI数据产品中,高时空分辨率的数据还较为缺乏。本产品基于Cubist模型对MODIS数据与Landsat及哨兵等遥感数据进行时空数据融合,得到了塔吉克斯坦2010–2020年中高时空分辨率Landsat-MODIS融合数据,以及2020年中高时空分辨率Sentinel-MODIS融合数据。为保证数据的准确性和可靠性,本数据集从数据源的质控,模型训练优化,以及模型独立验证三个方面对数据产品进行质量控制,且取得了较好的验证效果。本数据集可反映塔吉克斯坦2010–2020年NDVI时空变化情况,可为该地区植被变化分析、生态环境监测等提供长时间序列数据支撑。 展开更多
关键词 归一化植被指数 塔吉克斯坦 时空数据融合 遥感产品
在线阅读 下载PDF
长江经济带农业高质量发展时空差异分析 被引量:2
7
作者 汪雨涵 刘辉 《云南农业大学学报(社会科学版)》 2024年第4期59-66,共8页
基于新发展理念,从农业科技进步、农业质效提升、农业绿色发展、农业对外开放、农民生活向好5个维度构建农业高质量发展评价指标体系,采用熵值法、自然断点法和Dagum基尼系数对长江经济带2010-2022年的农业高质量发展水平进行测度,结果... 基于新发展理念,从农业科技进步、农业质效提升、农业绿色发展、农业对外开放、农民生活向好5个维度构建农业高质量发展评价指标体系,采用熵值法、自然断点法和Dagum基尼系数对长江经济带2010-2022年的农业高质量发展水平进行测度,结果表明:从时序变化上看,2010-2022年长江经济带农业高质量发展水平平稳上升,但不同省市增幅不一;从空间差距上看,长江经济带下游地区遥遥领先,中游地区加速追赶,上游地区持续跟进,农业高质量发展呈现空间扩张态势,重心逐渐向上中游位移,但区域间不平衡的现象日益突出,成为农业高质量发展差异的主要来源;从5个维度上看,各地区存在不同的优势与短板,农业高质量发展各维度各地区都有较大提升空间。基于区域比较优势,为推动长江经济带实现农业高质量发展提出对策建议。 展开更多
关键词 长江经济带 农业高质量发展 时空差异 熵值法
在线阅读 下载PDF
我国农业经济韧性的时空差异与影响因素分析
8
作者 洪炎阳 柯珍堂 吴学兵 《河北农业科学》 2024年第3期11-16,25,共7页
提升农业经济韧性对加快建设农业强国、推进农业农村现代化具有重要意义。运用熵值法、时空水平差异分析、空间杜宾模型,对2011—2021年我国省域农业经济韧性的时空水平进行测度,并对其影响因素进行分析。结果表明:(1)各省域农业经济韧... 提升农业经济韧性对加快建设农业强国、推进农业农村现代化具有重要意义。运用熵值法、时空水平差异分析、空间杜宾模型,对2011—2021年我国省域农业经济韧性的时空水平进行测度,并对其影响因素进行分析。结果表明:(1)各省域农业经济韧性总体呈现增强趋势,转型升级能力>适应调节能力>抵御风险能力。(2)我国农业经济韧性总体呈现空间溢出效应,且具有“低—低”组合和“低—高”组合的空间集聚特征。(3)空间交互效应下,财政支农对农业经济韧性具有显著正向直接效应、负向间接效应、正向总效应;耕地面积对农业经济韧性具有显著正向直接效应、负向间接效应;城乡差距对农业经济韧性具有显著负向直接效应、负向间接效应。提出需构建“一对一”帮扶体系、搭建风险预测系统等对策建议。 展开更多
关键词 农业经济韧性 时空差异 熵值法 空间杜宾模型
在线阅读 下载PDF
创新型城市试点政策对城市出口技术复杂度的影响
9
作者 王璇 《科技和产业》 2024年第23期56-63,共8页
基于2007—2021年中国270个城市的面板数据,构建多时点双重差分模型,理论分析并实证考察创新型城市试点政策对城市出口技术复杂度的影响。研究发现:创新型城市试点政策能够集聚创新资源,激发城市创新活力,提升城市出口技术复杂度;这一... 基于2007—2021年中国270个城市的面板数据,构建多时点双重差分模型,理论分析并实证考察创新型城市试点政策对城市出口技术复杂度的影响。研究发现:创新型城市试点政策能够集聚创新资源,激发城市创新活力,提升城市出口技术复杂度;这一促进效应在不同规模、区位特征和资源禀赋的城市中表现出明显差异。在经过一系列稳健性检验后,该结论依然成立。机制分析发现,创新型城市试点政策能够提升城市创新水平并优化产业结构,进而促进出口技术复杂度提升。 展开更多
关键词 出口技术复杂度 创新型城市试点政策 多时点双重差分法
在线阅读 下载PDF
基于“三生”视角测度汉江生态经济带农业高质量发展水平
10
作者 李春楠 王慧丽 《安徽农业科学》 CAS 2024年第19期204-210,217,共8页
推动农业高质量发展是我国实施乡村振兴战略及实现农村现代化的重要组成部分。基于“三生”系统视角,构建包括农业生态、经济和社会三系统的综合评价指标体系,采用熵权TOPSIS法和泰尔指数、基尼系数及变异系数测度汉江生态经济带13座城... 推动农业高质量发展是我国实施乡村振兴战略及实现农村现代化的重要组成部分。基于“三生”系统视角,构建包括农业生态、经济和社会三系统的综合评价指标体系,采用熵权TOPSIS法和泰尔指数、基尼系数及变异系数测度汉江生态经济带13座城市2012—2021年的农业高质量发展水平且对区域差异性进行评价,并借助ArcGIS软件对其农业高质量发展水平进行空间可视化分析。结果表明:汉江生态经济带三系统各自综合发展指数逐年上升,其农业高质量发展水平也逐年上升,上游和中下游城市农业高质量发展水平差异不大,主要差距来源于区域内部,区域间差异较小。因此,不同地区需要因地制宜,发挥优势、补齐短板,缩小区域内部差异,从而实现汉江生态经济带农业的现代化发展。 展开更多
关键词 熵权TOPSIS法 农业高质量发展 区域差异 时空演变 汉江生态经济带
在线阅读 下载PDF
城市数字基础设施建设的时空差异分析——基于中国30省份的面板数据
11
作者 黄鹏 《价值工程》 2024年第35期5-7,共3页
数字基础设施作为新基建的核心技术支持和基础保障,对推动城市经济高质量发展和提升数字竞争力具有关键作用。本研究基于2015-2021年中国30省份的面板数据,采用熵值法测算省域层面的城市数字基础设施建设水平,并通过Matlab软件测算了30... 数字基础设施作为新基建的核心技术支持和基础保障,对推动城市经济高质量发展和提升数字竞争力具有关键作用。本研究基于2015-2021年中国30省份的面板数据,采用熵值法测算省域层面的城市数字基础设施建设水平,并通过Matlab软件测算了30省份的Dagum基尼系数,以揭示数字基础设施建设的时空差异特征。研究结果显示,2015至2021年间,中国30省份的总体数字基础设施建设水平显著提升,从0.126增长至0.417,但仍存在明显的时空差异。尽管四大地区的内部和区域间差异呈现缩小趋势,东部地区内部以及东部与东北地区之间的差异仍然最大。此外,区域间差异贡献率是导致时空差异的主要因素。本研究为理解区域间数字基础设施发展不均衡提供了重要的实证依据,并为制定更具针对性的政策提供了参考。 展开更多
关键词 数字基础设施建设 时空差异 熵值法 Dagum基尼系数
在线阅读 下载PDF
一种基于时空信息的多目标检测新算法 被引量:26
12
作者 赵钦君 赵东标 陆永华 《仪器仪表学报》 EI CAS CSCD 北大核心 2011年第4期877-882,共6页
运动目标检测是计算机视觉中进行信息提取的关键技术之一。为了克服传统帧间差分法检测出的目标不完整的缺点,提出了一种基于时空信息的视频图像中多目标检测新算法。该算法将帧间差分得到的图像序列的时间信息和帧间边缘差分得到的图... 运动目标检测是计算机视觉中进行信息提取的关键技术之一。为了克服传统帧间差分法检测出的目标不完整的缺点,提出了一种基于时空信息的视频图像中多目标检测新算法。该算法将帧间差分得到的图像序列的时间信息和帧间边缘差分得到的图像空间信息结合起来检测图像中的运动目标,同时利用形态学闭运算和近区域合并方法进一步强化图像中的空间信息,利用小区域去除的方法去除图像中的噪声影响。最后通过3组实验对其有效性进行了验证,实验结果证明,其检测效果与传统算法相比有较大改善。 展开更多
关键词 时间差分法 时空信息 多目标检测 形态学
在线阅读 下载PDF
盾构区间隧道衬砌结构的抗震计算 被引量:20
13
作者 林志 朱合华 +1 位作者 杨超 杨林德 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第5期607-611,616,共6页
在广泛总结分析国内外关于地下工程结构抗震设计文献的基础上 ,从多自由度体系的动力平衡微分方程出发 ,采用时程分析法 ,计算盾构区间隧道衬砌结构的地震反应 .详细论述了近几年来逐步成熟和完善的一种数值积分方法———连续介质快速... 在广泛总结分析国内外关于地下工程结构抗震设计文献的基础上 ,从多自由度体系的动力平衡微分方程出发 ,采用时程分析法 ,计算盾构区间隧道衬砌结构的地震反应 .详细论述了近几年来逐步成熟和完善的一种数值积分方法———连续介质快速拉格朗日差分法 .讨论了土体材料的动力特性 .建立了盾构区间隧道抗震设计方法 ,并将其运用到广州地铁二号线赤岗—客村区间隧道的抗震设计中 . 展开更多
关键词 盾构 隧道 抗震设计 时域分析法 快速拉格朗日差分法 Davidenkov模型ov模型
在线阅读 下载PDF
地下水环境背景值及其确定方法 被引量:26
14
作者 邱汉学 黄巧珍 《中国海洋大学学报(自然科学版)》 CAS CSCD 1994年第S3期16-20,共5页
本文讨论了地下水环境背景值的概念和特征,指出环境背景值具有区域差异性和时间差异性,它是一个随时间渐变的范围值,属于某个区域(环境单元)而不是一个点.总结了已有的环境背景值确定方法及其优缺点,并提出在污染区可采用历时曲... 本文讨论了地下水环境背景值的概念和特征,指出环境背景值具有区域差异性和时间差异性,它是一个随时间渐变的范围值,属于某个区域(环境单元)而不是一个点.总结了已有的环境背景值确定方法及其优缺点,并提出在污染区可采用历时曲线法.为使背景值更可靠,多神方法的相互检验是必要的. 展开更多
关键词 地下水环境背景值 环境单元 区域差异性 时间差异性 历时曲线法
在线阅读 下载PDF
基于深度强化学习的非置换流水车间调度问题 被引量:33
15
作者 肖鹏飞 张超勇 +2 位作者 孟磊磊 洪辉 戴稳 《计算机集成制造系统》 EI CSCD 北大核心 2021年第1期192-205,共14页
针对传统调度算法不能有效利用历史数据进行学习,实时性较差而难以应对复杂多变的实际生产调度环境等问题,首次提出一种基于时序差分法的深度强化学习算法。该方法综合神经网络和强化学习实时性、灵活性的优势,直接依据输入的加工状态... 针对传统调度算法不能有效利用历史数据进行学习,实时性较差而难以应对复杂多变的实际生产调度环境等问题,首次提出一种基于时序差分法的深度强化学习算法。该方法综合神经网络和强化学习实时性、灵活性的优势,直接依据输入的加工状态进行行为策略选取,更贴近实际订单响应式生产制造系统的调度决策过程。通过将调度问题转化为多阶段决策问题,用深度神经网络模型拟合状态值函数,把制造系统加工状态特征数据输入模型,采用时序差分法训练模型,把启发式算法或分配规则作为调度决策候选行为,结合强化学习在线评价—执行机制,从而为每次调度决策选取最优组合行为策略。在非置换流水车间标准问题集上的测试结果表明,该算法能够取得低于实例上界的较优解。 展开更多
关键词 深度学习 时序差分法 强化学习 非置换流水车间 调度
在线阅读 下载PDF
频域Mur条件差分近似的构造和应用 被引量:10
16
作者 陈军 洪伟 陈忆元 《电子科学学刊》 CSCD 1996年第3期283-291,共9页
本文构造了Mur条件的频域有限差分近似。结合推导的非均匀、各向异性媒质中有限差分方程,可以有效、方便地计算电大尺寸复杂媒质体的电磁散射问题。运用稀疏矩阵压缩存贮技术和迭代求解算法,大大减少了所占用的计算机内存,与矩量法相比... 本文构造了Mur条件的频域有限差分近似。结合推导的非均匀、各向异性媒质中有限差分方程,可以有效、方便地计算电大尺寸复杂媒质体的电磁散射问题。运用稀疏矩阵压缩存贮技术和迭代求解算法,大大减少了所占用的计算机内存,与矩量法相比计算时间也大为减少。文中计算了几种媒质情况上圆柱和方柱的雷达散射截面,并与已有数据作了比较,结果一致性较好。 展开更多
关键词 差分近似 Mur条件 电磁散射 有限差分法 矩量法
在线阅读 下载PDF
长三角“人口—土地—经济—社会”城镇化的耦合协调性研究 被引量:22
17
作者 王锋 张芳 +2 位作者 林翔燕 石铁伟 陈洪涛 《工业技术经济》 CSSCI 北大核心 2018年第4期45-52,共8页
"人口—土地—经济—社会"四维城镇化的协调,是新型城镇化进程推进与质量提高的重要条件。本文构建了"人口—土地—经济—社会"城镇化耦合协调度模型,并对长三角地区多维城镇化的耦合协调度进行了测度与对比分析。... "人口—土地—经济—社会"四维城镇化的协调,是新型城镇化进程推进与质量提高的重要条件。本文构建了"人口—土地—经济—社会"城镇化耦合协调度模型,并对长三角地区多维城镇化的耦合协调度进行了测度与对比分析。研究发现:2005~2013年长三角各个维度下城镇化发展水平在波动中呈现不断提高的趋势,在此之后各个维度下城镇化发展水平均出现逐年降低的趋势;2005~2008年长三角地区各个城市均为中低协调耦合状态,2008年之后大多数城市为中度耦合协调,小部分城市达到中高协调耦合;2015年上海、苏州、镇江、宁波处于低度协调耦合,扬州、杭州、台州处于高度协调耦合,其他城市均处于中度协调耦合。整体来说长三角地区各个城市的协调耦合程度仍有待提高。因此,长三角地区在城镇化的进程中,应从正外部性角度出发,充分发挥协调度较高城市的集聚效应;从正内部性角度扩大协调度较低城市的土地供给和调整产业结构。 展开更多
关键词 城镇化 耦合协调度 熵值赋权法 时空差异 长三角 集聚效应
在线阅读 下载PDF
时空非均匀等离子体鞘套中太赫兹波的传播特性 被引量:18
18
作者 陈伟 郭立新 +1 位作者 李江挺 淡荔 《物理学报》 SCIE EI CAS CSCD 北大核心 2017年第8期70-76,共7页
高超声速飞行器再入地面的过程中,其周围等离子体的电子密度是非均匀且随时间变化的.对于不同的再入高度,飞行器周围的温度和压强也会发生改变.因此,研究电磁波在时空非均匀等离子体鞘套中的传播特性意义重大.首先建立了时变非均匀的等... 高超声速飞行器再入地面的过程中,其周围等离子体的电子密度是非均匀且随时间变化的.对于不同的再入高度,飞行器周围的温度和压强也会发生改变.因此,研究电磁波在时空非均匀等离子体鞘套中的传播特性意义重大.首先建立了时变非均匀的等离子体鞘套模型,然后通过经验公式得到温度、压强与碰撞频率三者的关系.采用时域有限差分方法计算了太赫兹波段中不同电子密度弛豫时间、温度、压强时的反射系数、透射系数和吸收率.研究结果表明:在太赫兹波段中,电子密度的弛豫时间越长,温度越高,压强越大,电磁波越容易穿透等离子体;弛豫时间越短,温度越低,压强越小,等离子体对电磁波吸收率的变化越明显.这些结果为解决"黑障"问题提供了理论依据. 展开更多
关键词 时空非均匀等离子体 等离子体鞘套 太赫兹波 时域有限差分方法
在线阅读 下载PDF
基于二阶时序差分误差的双网络DQN算法 被引量:4
19
作者 陈建平 周鑫 +3 位作者 傅启明 高振 付保川 吴宏杰 《计算机工程》 CAS CSCD 北大核心 2020年第5期78-85,93,共9页
针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值... 针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值函数网络分别用于表示先后两轮的值函数,协同更新网络参数,以提高DQN算法中值函数估计的稳定性。基于Open AI Gym平台的实验结果表明,在解决Mountain Car和Cart Pole问题方面,该算法较经典DQN算法具有更好的收敛稳定性。 展开更多
关键词 深度强化学习 马尔科夫决策过程 深度Q网络 二阶时序差分误差 梯度下降
在线阅读 下载PDF
基于递推最小二乘法的多步时序差分学习算法 被引量:5
20
作者 陈学松 杨宜民 《计算机工程与应用》 CSCD 北大核心 2010年第8期52-55,共4页
强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法(RLS-TD(λ))。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且... 强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法(RLS-TD(λ))。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且得出和证明了值函数估计值的误差应满足的关系式。迷宫实验表明,与RLS-TD(0)算法相比,该算法能加快学习过程的收敛,与传统的TD(λ)算法相比,该算法减少了值函数估计误差,从而提高了精度。 展开更多
关键词 强化学习 时序差分 最小二乘 收敛 RLS—td(λ)算法
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部