基于Elman网络的非线性系统增强式学习控制被引量：8

Reinforcement Learning Control for Nonlinear Systems Based on Elman Neural Network

在线阅读下载PDF

导出

摘要针对具有连续状态和未知系统模型的非线性系统控制问题,提出一种基于Elman神经网络的Q学习控制策略.利用Elman网络良好的动态特性及泛化能力,对状态-动作对的Q值进行在线估计,解决状态空间泛化中易出现的“维数灾”问题.借鉴TD(λ)算法中状态的资格迹机制,通过对权值向量定义对应的资格迹来加速神经网络的学习过程.将所提方法应用于具有连续状态的小车爬山控制问题,学习系统在经过大约60多次学习后即能获得小车爬山控制策略,仿真结果表明所提方法能够有效解决具有连续状态的非线性系统的无模型增强学习控制. Aiming at the controller design for nonlinear system with continuous state and un known dynamic model, a kind of Q learning method based on Elman neural network was proposed. The Q value of state-action pair was estimated on-line using the dynamic and generalization properties of Elman network, which can solve the curse of dimension＇ caused from state space generalization. In order to enhance the learning speed of neural network, eligibility trace corresponding to connect weights was introduced by the eligibility trace mechanism of state in TD（ A ） algorithm. The method was applied to control of mountain car. The effective control strategy can be obtained after about 60 trials, which indicates that the proposed Q learning method is suitable for reinforcement learning control for nonlinear system with continuous state and unknown dynamic model.

作者王雪松程玉虎易建强王炜强

机构地区中国矿业大学信息与电气工程学院中国科学院自动化研究所

出处《中国矿业大学学报》 EI CAS CSCD 北大核心 2006年第5期653-657,共5页 Journal of China University of Mining & Technology

基金国家自然科学基金项目(60475030)

关键词非线性系统增强学习 Q学习 ELMAN网络资格迹 nonlinear system reinforcement learning Q learning Elman neural network eligibility trace

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：57
2MICHIE D,CHAMBERS R A.Boxes:an experiment in adaptive control[J].Machine Intelligence,1968,2(2):137-152.
3BARAS J S,BORKAR V S.A learning algorithm for Markov decision processes with adaptive state aggregation[C]// Proceedings of the IEEE Conference on Decision and Control.New Jersey:Piscataway Press,2000:3351-3356.
4MOORE A W,ATKESON C G.The parti-game algorithm for variable resolution reinforcement learning in multidimensional state spaces[J].Machine Learning,1995,21(3):199-233.
5LIN C K.A reinforcement learning adaptive fuzzy controller for robots[J].Fuzzy Sets and Systems,2003,137(3):339-352.
6蒋国飞,吴沧浦.基于Q学习算法和BP神经网络的倒立摆控制[J].自动化学报,1998,24(5):662-666. 被引量：55
7KUROZUMI R,FUJISAWA S,YAMAMOTO T,et al.Development of an automatic travel system for electric wheelchairs using reinforcement learning systems and CMACs[C]// Proceedings of the International Joint Conference on Neural Networks.Honolulu:Institute of Electrical and Electronics Engineers Inc.Press,2002:1690-1695.
8SUTTON R S,BARTO A G.Reinforcement learning:an Introduction[M].Cambridge:The MIT Press,1998.
9WATKINS C J C H,DAYAN P.Technical report:Q-learning[J].Machine Learning,1992,8(3):279-292.
10许世范,王雪松,郝继飞.Predicting Model for Complex Production Process Based on Dynamic Neural Network[J].Journal of China University of Mining and Technology,2001,11(1):20-23. 被引量：1

二级参考文献35

1[19]James A Highsmith.Adaptive Software Development[M].北京:清华大学出版社,2003.
2Peng J，博士学位论文，1993年
3Baird L C. Residual algorithms: Reinforcement learning with function approximation. In: Proceedings of the 12th International Conference on Machine Learning (ICML95), Tahoe City, California, USA, 1995. 30～37
4Rumelhart D E et al. Learning internal representations by error propagation. In: Rumelhart D E et al, eds. Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Vol.1,Cambridge, MA: MIT Press,1986. 318～362
5Cybenko G. Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals, and Systems, 1989, 2: 303～314
6Baird L C, Moore A. Gradient descent for general reinforcement learning. In: Kearns M S, Solla S A, Cohn D A eds. Advances in Neural Information Processing Systems 11, Cambrige, MA: MIT Press, 1999. 968～974
7Bertsekas D P, Tsitsiklis J N. Gradient convergence in gradient methods with errors. SIAM Journal on Optimization, 2000, 10(3): 627～642
8Heger M. The loss from imperfect value functions in expectation-based and minimax-based tasks. Machine Learning, 1996, 22(1): 197～225
9Sutton R. Generalization in reinforcement learning: Successful examples using sparse coarse coding. In: Touretzky D S, Mozer M C, Hasselmo M E eds. Advances in Neural Information Processing Systems 8, Cambrige, MA: MIT Press, 1996. 1038～1044
10Kaelbling L P et al. Reinforcement learning: A survey. Jour- nal of Artificial Intelligence Research, 1996, 4: 237～285

共引文献131

1刘美玲,甘娇娇,曾莹,王双双,周继云.基于增量学习的不平衡虚假评论处理研究[J].数据分析与知识发现,2024,8(8):85-95.
2窦春红,黄明键,王中华,王新江.倒立摆系统及其控制策略研究现状[J].中南大学学报（自然科学版）,2003,34(z1):96-99.
3周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
4董沛武,刘微微,娄岩峰.基于遗传算法和神经网络的企业核心竞争力评价模型研究[J].兵工学报,2009,30(S1):114-118. 被引量：6
5蔡增威,刘德春,张晓华.一种基于鲁棒性设计的一阶倒立摆双闭环控制方法[J].自动化技术与应用,2004,23(4):11-15. 被引量：4
6王瑞霞,孙亮,阮晓刚.基于内部回归神经网络的强化学习[J].控制工程,2005,12(2):138-140. 被引量：4
7王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
8张玉梅,阮晓钢.一种生长型神经网络的倒立摆控制方案[J].微计算机信息,2005,21(11S):91-93. 被引量：1
9徐学军,伍铁斌,李文.基于混沌PID的倒立摆控制[J].湘潭师范学院学报（自然科学版）,2006,28(1):15-19. 被引量：1
10张涛,吴汉生.基于神经网络的强化学习算法实现倒立摆控制[J].计算机仿真,2006,23(4):298-300. 被引量：7

同被引文献75

1史旭华.神经网络自适应广义预测解耦控制器的设计[J].系统仿真学报,2005,17(1):178-180. 被引量：4
2李永国.轻型钢结构门式刚架设计探讨[J].钢结构,2005,20(1):36-37. 被引量：4
3郑小霞,钱锋.动态系统故障诊断技术的研究与发展[J].化工自动化及仪表,2005,32(4):1-7. 被引量：20
4曹卫华,侯少云,吴敏.基于集成模型的焦炉火道温度软测量技术研究与应用[J].计算机测量与控制,2006,14(2):149-151. 被引量：3
5胡玉玲,曹建国.基于模糊神经网络的动态非线性系统辨识研究[J].系统仿真学报,2007,19(3):560-562. 被引量：23
6高阳,胡景凯,王本年,王冬黎.基于CMAC网络强化学习的电梯群控调度[J].电子学报,2007,35(2):362-365. 被引量：13
7石宇静,柴天佑.基于神经网络与多模型的非线性自适应广义预测控制[J].自动化学报,2007,33(5):540-545. 被引量：30
8闫桂荣,段忠东,欧进萍.基于结构振动信息的损伤识别研究综述[J].地震工程与工程振动,2007,27(3):95-103. 被引量：50
9Gao X Z, Ovaska S J, Vasilakos A V. Temporal difference method-based multi-step ahead prediction of long term deep fading in mobile networks[J]. Computer Communications, 2002, 25(16): 1477-1486.
10Sutton R S. Learning to predict by the methods of temporal differences[J]. Machine Learning, 1988, 3(1): 9-44.

引证文献8

1曹卫华,陈泰任,吴敏,雷琪.基于误差预测的焦炉火道温度软测量模型[J].信息与控制,2009,38(2):206-210. 被引量：6
2温淑焕,王哲,刘福才.基于Elman网络的广义预测控制快速算法[J].系统仿真学报,2009,21(22):7307-7309. 被引量：2
3程玉虎,高阳,王雪松.基于概率型支持向量分类机的Q学习[J].中国矿业大学学报,2010,39(3):408-413. 被引量：1
4阮晓钢,陈静.基于滑模思想和Elman网络的操作条件反射学习控制方法[J].控制与决策,2011,26(9):1398-1401. 被引量：3
5贾宏玉,岳鹏飞.基于Elman神经网络的门式刚架结构损伤识别[J].钢结构,2011,26(9):23-26.
6雷萌,李明,吴楠,董亮.基于神经网络集成的挥发分近红外回归模型[J].中国矿业大学学报,2013,42(2):291-295. 被引量：10
7乔景慧,柴天佑.改进ELMAN网络的Q学习温度切换控制[J].控制理论与应用,2015,32(7):955-962. 被引量：6
8钱忆钊,陈良.Elman神经网络在电力负荷预测中的应用[J].电工技术,2019(14):55-56. 被引量：8

二级引证文献36

1赵宝福,柴胜仙,张艳菊.基于直觉模糊时间序列与Elman神经网络组合模型的动态顾客需求预测[J].辽宁工程技术大学学报（社会科学版）,2021,23(3):168-175. 被引量：1
2倪凯来,柳向东.基于深度神经网络的电力负荷预测[J].中国科技论文在线精品论文,2021(1):47-60. 被引量：1
3刘晓东,刘尚,李刚.基于中心点法的蓄热室顶部温度补偿[J].燃料与化工,2011,42(1):23-25.
4刘晓东,刘尚,蔡承祐,李刚.蓄顶温度与火道温度关系模型辨识新方法[J].燃料与化工,2011,42(2):15-18. 被引量：1
5郜园园,阮晓钢,宋洪军.操作条件反射学习自动机及其在机器人平衡控制中的应用[J].控制与决策,2013,28(6):930-934. 被引量：3
6张林,陆辉山,闫宏伟,高强,王福杰,宋海燕.煤粉发热量近红外光谱检测的预处理方法研究[J].光谱学与光谱分析,2013,33(12):3212-3215. 被引量：8
7蔡建羡,马洪蕊,程丽娜.基于仿生策略的机器人自主导航方法研究[J].计算机仿真,2014,31(1):333-338. 被引量：2
8李东,艾红.水泥分解炉温度的RBF神经网络监督控制[J].传感器世界,2018,24(12):25-32. 被引量：3
9雷萌,李明,马小平,缪燕子,王建生.基于拟线性局部加权法的煤样光谱散射校正[J].光谱学与光谱分析,2014,34(7):1816-1820. 被引量：1
10吴财芳,姚帅,杜严飞.基于时间序列BP神经网络的煤层气井排采制度优化[J].中国矿业大学学报,2015,44(1):64-69. 被引量：12

1孙羽,张汝波,徐东.强化学习中资格迹的作用[J].计算机工程,2002,28(5):128-129. 被引量：1
2刘智斌,曾晓勤,徐彦,禹继国.采用资格迹的神经网络学习控制算法[J].控制理论与应用,2015,32(7):887-894. 被引量：4
3傅启明,刘全,孙洪坤,高龙,李瑾,王辉.一种二阶TD Error快速Q(λ)算法[J].模式识别与人工智能,2013,26(3):282-292. 被引量：5
4王婷婷,丁世飞.基于资格迹的RBF非线性系统强化学习研究[J].小型微型计算机系统,2016,37(7):1508-1512. 被引量：1
5李捷.增强式网络考试系统设计[J].软件,2013,34(9):14-16. 被引量：3
6王佳.哈挺CIMT2009新品亮相[J].金属加工（冷加工）,2009(10):9-9.
7沈智鹏,郭晨.带有资格迹的模糊CMAC控制仿真研究[J].系统仿真学报,2004,16(11):2604-2607.
8杨旭东,刘全,李瑾.一种基于资格迹的并行强化学习算法[J].苏州大学学报（自然科学版）,2012,28(1):26-33. 被引量：1
9童亮,陆际联,龚建伟.一种快速强化学习方法研究[J].北京理工大学学报,2005,25(4):328-331. 被引量：4
10陈圣磊,谷瑞军,陈耿,薛晖.基于TD(λ)的自然梯度强化学习算法[J].计算机科学,2010,37(12):186-189. 被引量：2

中国矿业大学学报

2006年第5期

浏览历史

内容加载中请稍等...

基于Elman网络的非线性系统增强式学习控制被引量：8

参考文献13

二级参考文献35

共引文献131

同被引文献75

引证文献8

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于Elman网络的非线性系统增强式学习控制 被引量：8

参考文献13

二级参考文献35

共引文献131

同被引文献75

引证文献8

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于Elman网络的非线性系统增强式学习控制被引量：8