基于分层强化学习的机械臂复杂操作技能学习方法被引量：1

Complex manipulation skill learning approach based on hierarchicalreinforcement learning for robot manipulator

在线阅读下载PDF

导出

摘要在面对复杂任务时,传统强化学习方法存在状态空间庞大、奖励函数稀疏等问题,导致机械臂不能学习到复杂的操作技能。针对上述问题,提出一种基于分层强化学习的机械臂复杂操作技能学习方法。首先,底层运用基于Beta过程的自回归隐马尔可夫模型,将复杂操作任务分解为多个简单的子任务;其次,对每个子任务运用SAC算法进行技能学习,得到每个子任务的最优策略;最后,根据底层得到的子任务最优策略,上层通过基于最大熵目标的改进强化学习算法学习复杂操作技能。实验结果表明,所提方法能有效实现机械臂复杂操作技能的学习、再现与泛化,并在性能上优于其他传统强化学习算法。 The traditional reinforcement learning methods face challenges such as large state space and sparse reward functions when dealing with complex tasks,which hinders the learning of complex manipulation skills for robot manipulator.Therefore,a complex manipulation skill learning approach based on hierarchical reinforcement learning for robot manipulator is proposed.Firstly,the autoregressive hidden Markov model(HMM)based on Beta process is used for the low⁃level to decompose complex manipulation tasks into several simple subtasks.Secondly,the SAC(soft actor critic)algorithm is used to learn skills and obtain the optimal strategy for each subtask.Finally,on the basis of the optimal strategy obtained at the low⁃level,an improved reinforcement learning algorithm based on maximum entropy objective is utilized at the high⁃level to learn complex manipulation skills.Experimental results demonstrate that the proposed method can effectively achieve learning,reproduction and generalization of complex manipulation skills for robot manipulator,and outperform other traditional reinforcement learning algorithms in terms of the performance.

作者孟子晗高翔刘元归马陈昊 MENG Zihan;GAO Xiang;LIU Yuangui;MA Chenhao(College of Automation&College of Artificial Intelligence,Nanjing University of Posts and Telecomunications,Nanjing 210023,China)

机构地区南京邮电大学自动化学院人工智能学院

出处《现代电子技术》 2023年第19期116-124,共9页 Modern Electronics Technique

基金江苏省自然科学基金项目(BK20210599) 江苏省博士后科研资助项目(2019K030)。

关键词机械臂复杂操作任务分层强化学习子目标自回归隐马尔可夫模型 SAC算法 robot manipulator complex manipulation task hierarchical reinforcement learning sub⁃objective autoregressive HMM SAC algorithm

分类号 TN99-34 [电子电信—信号与信息处理] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1刘乃军,鲁涛,蔡莹皓,王硕.机器人操作技能学习方法综述[J].自动化学报,2019,45(3):458-470. 被引量：39

二级参考文献2

1谭民,王硕.机器人技术研究进展[J].自动化学报,2013,39(7):963-972. 被引量：371
2赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：133

共引文献38

1于守山,徐洪,李楠楠.情绪控制对人机在环系统的影响[J].电子技术与软件工程,2019,0(15):239-240.
2王薇,吴锋,周风余.机器人操作技能自主认知与学习的研究现状与发展趋势[J].山东大学学报（工学版）,2019,49(6):11-24. 被引量：3
3王琪,闵华松.双臂机器人的协调控制算法综述[J].计算机工程与应用,2021,57(1):1-16. 被引量：20
4朱应钊,李嫚.元学习研究综述[J].电信科学,2021,37(1):22-31. 被引量：9
5孙立宁,许辉,王振华,陈国栋.工业机器人智能化应用关键共性技术综述[J].振动．测试与诊断,2021,41(2):211-219. 被引量：54
6胡平,林雪华,张冉.基于Transformer网络的双臂机器人模仿学习方法[J].信息与电脑,2021,33(6):33-35.
7孙辉辉,胡春鹤,张军国.移动机器人运动规划中的深度强化学习方法[J].控制与决策,2021,36(6):1281-1292. 被引量：31
8伍一鹤,张振宁,仇栋,李蔚清,苏智勇.基于深度强化学习的虚拟手自适应抓取研究[J].图学学报,2021,42(3):462-469. 被引量：3
9何斌,刘全,张琳琳,时圣苗,陈红名,闫岩.一种加速时间差分算法收敛的方法[J].自动化学报,2021,47(7):1679-1688. 被引量：3
10贾红涛,胡文娟.基于确定性策略梯度算法的机械臂控制模型构建及仿真[J].粘接,2021,47(9):151-154.

引证文献1

1宋越杰,马陈昊,孟子晗,刘元归.基于逆强化学习与行为树的机械臂复杂操作技能学习方法[J].现代电子技术,2024,47(7):133-139. 被引量：1

二级引证文献1

1范玫杉,刘嘉,马伟佳.协作机器人技术与产业分析[J].科技和产业,2024,24(11):282-288.

1黄雅菁.一种基于分层抽象语法树的Android代码异味检测方法[J].上海师范大学学报（自然科学版）,2023,52(4):418-423.
2刘晓敏.基于分层教学法的初中英语教学探索[J].中文科技期刊数据库（全文版）教育科学,2023(9):106-109.
3岳婷婷.围绕单元作业目标,开展课时作业设计[J].教育视界,2023(24):15-18.
4林泽阳,赖俊,陈希亮,王军.基于课程强化学习的无人机反坦克策略训练模型[J].计算机科学,2023,50(10):214-222.
5赵夏文,王子谦,王强,汪明.基于分层类比的“光的折射”教学[J].物理教学探讨,2023,41(9):9-12.
6恽承恺.基于分层理念的小学语文弹性作业设计策略[J].中文科技期刊数据库（文摘版）教育,2023(10):27-29.
7邹启杰,李文雪,高兵,赵锡玲,张汝波.基于加权值函数分解的多智能体分层强化学习技能发现方法[J].计算机应用研究,2023,40(9):2743-2748. 被引量：1
8梁明胜.PLC技术在转炉炼钢中的应用[J].金属世界,2023(5):90-93.
9周燕.县级融媒体新闻采编能力的提升[J].西部广播电视,2023,44(15):213-215. 被引量：1
10吴正清,曹晖.基于GAN的中文虚假评论数据集生成方法[J].云南大学学报（自然科学版）,2023,45(5):1033-1042. 被引量：1

现代电子技术

2023年第19期

浏览历史

内容加载中请稍等...

基于分层强化学习的机械臂复杂操作技能学习方法被引量：1

参考文献1

二级参考文献2

共引文献38

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于分层强化学习的机械臂复杂操作技能学习方法 被引量：1

参考文献1

二级参考文献2

共引文献38

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于分层强化学习的机械臂复杂操作技能学习方法被引量：1