从知识的表达和运用综述强化学习研究被引量：15

Overview of reinforcement learning from knowledge expression and handling

在线阅读下载PDF

导出

摘要为推进强化学习研究的进一步深入和扩大其实际应用范围,从强化学习研究的理论基础——知识表示和运用的角度对强化学习进行分类,并就经典随机强化学习、模糊强化学习、定性强化学习以及灰色强化学习作了较详细的探讨与比较.最后从知识表达和运用的角度对强化学习的发展进行了展望. In order to advance reinforement learning （RL） research and expand its practical application scope, it＇s necessary to classify RL from RL research theory base, knowledge expressed and the handling angle. Based on classical stochastic RL, fuzzy RL. qualitative RL and grey RL, the detailed discussion and comparions are given.Finally, RL development is forecasted from the knowledge expression and handling angle.

作者陈宗海杨志华王海波盛捷

机构地区中国科学技术大学自动化系

出处《控制与决策》 EI CSCD 北大核心 2008年第9期961-968,975,共9页 Control and Decision

基金国家自然科学基金项目(60575033) 国家863计划项目(2007AA04Z227)

关键词强化学习知识表示模糊理论定性推理灰色系统理论 Reinforcement learning Knowledge representation Fuzzy theory Qualitative reasoning Grey systemtheory

分类号 TP24 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献36

1Tom M Mitchell.曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003..
2张汝波,顾国昌,刘照德,王醒策.强化学习理论、算法及应用[J].控制理论与应用,2000,17(5):637-642. 被引量：93
3Barto A G, Sutton R S, Brouwer P S. Associative search network.. A reinforcement learning associative memory[J]. Biological Cybernetics, 1981, 40(2) : 201- 211.
4Barto A G, Sutton R S, Anderson C W. Neuronlike adaptive elements that can solve difficult learning control problems [J]. IEEE Trans on Systems, Man and Cybernetics, 1983, 13(5): 834-846.
5Sutton R S. Temporal credit assignment in reinforcement learning [D]. Amherst: University of Massachusetts, 1984.
6Sutton R S. Learning to predict by the methods of temporal difference[J]. Machine Learning, 1988, 3(1) : 9-44.
7Watkins J C H, Dayan P. Q-learning [J]. Machine Learning, 1992, 8(2): 279-292.
8Sutton R S, Barto A G. Reinforcement learning: An introduetion[M]. Cambridge: MIT Press, 1998.
9Chen C L, Dong D Y, Chen Z H. Grey reinforcement learning for incomplete information processing [ J ]. Lecture Notes in Computer Science, 2006, 3959.. 399- 407.
10陈宗海,文锋.基于复杂过程简化模型的DHP学习控制[J].控制与决策,2006,21(10):1087-1091. 被引量：2

二级参考文献9

1文锋,陈宗海,望安全.对快速AHC方法的一种改进[J].信息与控制,2003,32(z1):652-656. 被引量：2
2DerongLiu.Approximate Dynamic Programming for Self-Learning Control[J].自动化学报,2005,31(1):13-18. 被引量：14
3杨璐,洪家荣,黄梯云.用加强学习方法解决基于神经网络的时序实时建模问题[J].哈尔滨工业大学学报,1996,28(4):136-139. 被引量：2
4阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
5俞星星,阎平凡.强化学习系统及其基于可靠度最优的学习算法[J].信息与控制,1997,26(5):332-339. 被引量：3
6马莉,蔡自兴.再励学习控制器结构与算法[J].模式识别与人工智能,1998,11(1):96-100. 被引量：4
7蒋国飞,吴沧浦.基于Q学习算法和BP神经网络的倒立摆控制[J].自动化学报,1998,24(5):662-666. 被引量：55
8张汝波,周宁,顾国昌,张国印.基于强化学习的智能机器人避碰方法研究[J].机器人,1999,21(3):204-209. 被引量：23
9蒋国飞,高慧琪,吴沧浦.Q学习算法中网格离散化方法的收敛性分析[J].控制理论与应用,1999,16(2):194-198. 被引量：9

共引文献113

1李徐,张帆.受强化学习思想启发的一种结构优化算法[J].智能计算机与应用,2022,12(5):136-140. 被引量：1
2孙方平,符秀辉.复杂环境下机器人的行为学习研究[J].仪器仪表学报,2006,27(z3):1982-1983. 被引量：2
3朱伟一.格林斯潘斗不过经济规律[J].南风窗,2002(24):61-61.
4闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：57
5蒋伟进,许宇胜,孙星明,许宇晖.多智能体的分布式智能故障诊断[J].控制理论与应用,2004,21(6):945-950. 被引量：22
6张驰,韩光胜.改进的模糊Q学习方法及其在RoboCup中的应用[J].计算机仿真,2005,22(5):189-192. 被引量：2
7刘钊,陈建勋.基于自适应遗传算法的足球机器人策略设计[J].哈尔滨工业大学学报,2005,37(7):912-913. 被引量：4
8任燚,陈宗海.自主移动机器人中基于强化学习的噪声消解策略(英文)[J].系统仿真学报,2005,17(7):1699-1703.
9李国伟,周颜,李钜.ID3算法在硕士研究生报名中的应用[J].中原工学院学报,2005,16(3):37-39. 被引量：2
10柳在鑫,王进戈,王强.基于Q学习与CBL结合的机器人足球行为学习研究[J].西华大学学报（自然科学版）,2005,24(4):58-60. 被引量：2

同被引文献240

1张强,李盼池.一种自适应多策略行为粒子群优化算法[J].控制与决策,2020,35(1):115-122. 被引量：24
2Laura RAY.Hierarchical state-abstracted and socially augmented Q-Learning for reducing complexity in agent-based learning[J].控制理论与应用（英文版）,2011,9(3):440-450. 被引量：2
3谢禹,王雅林,林洪进,闫苗苗.基于模糊积分的企业信用评级方法研究[J].中国软科学,2004(9):145-149. 被引量：14
4刘永,郭怀成,范英英,王丽婧.湖泊生态系统动力学模型研究进展[J].应用生态学报,2005,16(6):1169-1175. 被引量：34
5范维澄.突发公共事件应急信息系统总体方案构思[J].信息化建设,2005(9):11-14. 被引量：46
6王慧敏,佟金萍,马小平,倪建军,牛文娟.基于CAS范式的流域水资源配置与管理及建模仿真[J].系统工程理论与实践,2005,25(12):118-124. 被引量：36
7刘菲,曾广周.基于强化学习的多移动Agent学习算法[J].计算机工程与应用,2006,42(5):50-53. 被引量：2
8毛国柱,刘永,郭怀成,吕晓剑,周丰.湖泊富营养化控制技术综合集成方法框架[J].环境工程,2006,24(1):65-67. 被引量：9
9罗荣桂,江涛.基于SIR传染病模型的技术扩散模型的研究[J].管理工程学报,2006,20(1):32-35. 被引量：30
10冯建湘,唐嵘,高利.灰色推理技术及其智能应用研究[J].计算机工程与科学,2006,28(3):131-133. 被引量：4

引证文献15

1章国安,丁晨莉,包志华.认知无线Mesh网络自适应多路径算法[J].电讯技术,2010,50(9):55-59.
2徐安,于雷,寇英信,徐保伟,李战武.基于MDP框架的飞行器隐蔽接敌策略[J].系统工程与电子技术,2011,33(5):1063-1068. 被引量：11
3李丽娜,王俊玲,陈国权.船舶拟人智能避碰决策理论的集成机器学习策略[J].信息与控制,2011,40(3):359-368. 被引量：13
4邬文帅,寇纲,彭怡,石勇.面向突发事件的模糊多目标应急决策方法[J].系统工程理论与实践,2012,32(6):1298-1304. 被引量：43
5倪建军,刘明华,任黎,张传标.强化学习在基于多主体模型决策支持系统中的应用--以湖泊水环境决策支持系统为例[J].系统工程理论与实践,2012,32(8):1777-1783. 被引量：5
6陈婷,邵云飞.高新科技企业实施轮岗制的组织知识扩散模型研究[J].软科学,2012,26(10):99-103.
7朱美强,李明,程玉虎,张倩,王雪松.基于拉普拉斯特征映射的启发式Q学习[J].控制与决策,2014,29(3):425-430. 被引量：7
8马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：15
9李干蓉,杨晓武.基于Multi-Agent的喀斯特地区石漠化治理监控优化技术[J].农业技术与装备,2015(6):7-9.
10于乃功,默凡凡.基于深度自动编码器与Q学习的移动机器人路径规划方法[J].北京工业大学学报,2016,42(5):668-673. 被引量：14

二级引证文献177

1黄立夫,赵成.近十年国内应急管理研究热点与前沿可视化分析[J].中国应急管理科学,2020(8):4-16. 被引量：1
2徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：12
3徐雪晴,谢加良,李凤.一种基于倾向的直觉模糊度量及其在应急决策中的应用[J].模糊系统与数学,2023,37(2):81-88. 被引量：1
4刘峰波,党飞飞,杨满囤,马平,赵俊达.井下防淤积清仓机器人行走机构纠偏控制研究[J].煤炭工程,2022,54(S01):195-199.
5刘长石,寇纲.面向非常规突发事件的应对任务网络优化[J].中国管理科学,2013,21(S1):148-152.
6黄颖,李丽娜,陈国权.紧迫危险避碰决策支持模块设计及其应用[J].集美大学学报（自然科学版）,2011,16(6):434-439. 被引量：3
7管冰蕾,葛泉波,段胜安,刘波.新型船舶智能避碰决策支持系统研究[J].中国航海,2012,35(3):16-22. 被引量：5
8付昭旺,于雷,刘霞,曲大鹏.网络信息支持下目标“虚拟跟踪”方法研究[J].电光与控制,2013,20(4):1-6. 被引量：2
9朱晓娜,吴凤平,程铁军.基于不确定语言信息的突发事件应急决策研究[J].项目管理技术,2013,11(9):35-38.
10付昭旺,于雷,李战武,李飞.战斗机隐蔽接敌轨迹优化方法[J].国防科技大学学报,2013,35(5):52-58. 被引量：6

1葛媛,布朋生,刘强.模糊强化学习在机器人导航中的应用[J].信息技术,2009,33(10):127-130. 被引量：5
2姜来,许文焕,纪震,张基宏.模糊强化学习型的图像矢量量化算法[J].电子学报,2006,34(9):1738-1741. 被引量：1
3安子强.模糊强化学习的改进GEAR传感网络均衡算法[J].计算机仿真,2013,30(6):279-283.
4周菁.基于模糊算法改进的传感器网络平衡算法的研究[J].电脑知识与技术（过刊）,2013,19(8X):5341-5342.

控制与决策

2008年第9期

浏览历史

内容加载中请稍等...

从知识的表达和运用综述强化学习研究被引量：15

参考文献36

二级参考文献9

共引文献113

同被引文献240

引证文献15

二级引证文献177

相关作者

相关机构

相关主题

浏览历史

从知识的表达和运用综述强化学习研究 被引量：15

参考文献36

二级参考文献9

共引文献113

同被引文献240

引证文献15

二级引证文献177

相关作者

相关机构

相关主题

浏览历史

从知识的表达和运用综述强化学习研究被引量：15