行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized...行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized Natural AC with Model Learning and Experience Replay,简称RNAC-ML-ER).RNAC-ML-ER将Agent与环境在线交互产生的样本用于学习系统动态性对应的线性模型和填充经验回放存储器.将线性模型产生的模拟样本和经验回放存储器中存储的样本作为在线样本的补充,实现值函数、优势函数和策略的更新.为了提高更新的效率,在每个时间步,仅当模型的预测误差未超过阈值时才利用该模型进行规划,同时根据TD-error从大到小的顺序对经验回放存储器中的样本进行回放.为了降低策略梯度估计的方差,引入优势函数参数向量对优势函数进行线性近似,在优势函数的目标函数中加入2-范数进行正则化,并通过优势函数参数向量来对策略梯度更新,以促进优势函数和策略的收敛.在指定的两个假设成立的条件下,通过理论分析证明了所提算法RNAC-ML-ER的收敛性.在4个强化学习的经典问题即平衡杆、小车上山、倒立摆和体操机器人中对RNACML-ER算法进行实验,结果表明所提算法能在大幅提高样本效率和学习速率的同时保持较高的稳定性.展开更多
在动作间的状态未知条件下,利用遗传算法,从不完整的领域描述和规划实例中学习动作模型,并且设计了AMLS-GA(Action Model Learning System Based on Genetic Algorithm)系统来具体实现这一思想.作者为每一个动作构建一个可能谓词集,这...在动作间的状态未知条件下,利用遗传算法,从不完整的领域描述和规划实例中学习动作模型,并且设计了AMLS-GA(Action Model Learning System Based on Genetic Algorithm)系统来具体实现这一思想.作者为每一个动作构建一个可能谓词集,这个谓词集覆盖了动作前提表、增加表和删除表中的所有谓词.采用二进制编码的方式,把动作模型编码成GA搜索空间中的一个假设,学习过程是在标准的遗传算法框架下进行的.把学习结果的正确性定义为尽可能多的解释规划实例,并且通过实验的方法对比学习到的模型与专家预定义模型之间的差别.实验结果表明,算法能在较短的时间内,学习到一个逼近专家描述的动作模型.展开更多
文摘行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized Natural AC with Model Learning and Experience Replay,简称RNAC-ML-ER).RNAC-ML-ER将Agent与环境在线交互产生的样本用于学习系统动态性对应的线性模型和填充经验回放存储器.将线性模型产生的模拟样本和经验回放存储器中存储的样本作为在线样本的补充,实现值函数、优势函数和策略的更新.为了提高更新的效率,在每个时间步,仅当模型的预测误差未超过阈值时才利用该模型进行规划,同时根据TD-error从大到小的顺序对经验回放存储器中的样本进行回放.为了降低策略梯度估计的方差,引入优势函数参数向量对优势函数进行线性近似,在优势函数的目标函数中加入2-范数进行正则化,并通过优势函数参数向量来对策略梯度更新,以促进优势函数和策略的收敛.在指定的两个假设成立的条件下,通过理论分析证明了所提算法RNAC-ML-ER的收敛性.在4个强化学习的经典问题即平衡杆、小车上山、倒立摆和体操机器人中对RNACML-ER算法进行实验,结果表明所提算法能在大幅提高样本效率和学习速率的同时保持较高的稳定性.
文摘在动作间的状态未知条件下,利用遗传算法,从不完整的领域描述和规划实例中学习动作模型,并且设计了AMLS-GA(Action Model Learning System Based on Genetic Algorithm)系统来具体实现这一思想.作者为每一个动作构建一个可能谓词集,这个谓词集覆盖了动作前提表、增加表和删除表中的所有谓词.采用二进制编码的方式,把动作模型编码成GA搜索空间中的一个假设,学习过程是在标准的遗传算法框架下进行的.把学习结果的正确性定义为尽可能多的解释规划实例,并且通过实验的方法对比学习到的模型与专家预定义模型之间的差别.实验结果表明,算法能在较短的时间内,学习到一个逼近专家描述的动作模型.