提升Q学习(Q-learning)算法在复杂环境中的数据效率与决策准确度,无疑是算法性能优化所面临的关键挑战。将因果模型引入Q学习算法,通过揭示变量间的因果关系,从而提高Q学习算法的性能是新兴且热门的研究方向。该文提出一种基于因果模型...提升Q学习(Q-learning)算法在复杂环境中的数据效率与决策准确度,无疑是算法性能优化所面临的关键挑战。将因果模型引入Q学习算法,通过揭示变量间的因果关系,从而提高Q学习算法的性能是新兴且热门的研究方向。该文提出一种基于因果模型的Q学习算法,C-Q学习(Causal-model based Q-learning)算法。该算法包括基于智能体利用Q学习算法与环境交互过程中关键变量之间的因果关系,构建结构因果模型;采用因果推断理论中的后门调整的方法去除模型中影响奖励的混淆因子所引起的混淆效应,评估了更为准确的Q值,并且精准识别出每个状态下可能获得最高奖励的动作,优化Q学习算法的动作选择过程。最后,将Q学习算法、Eva-Q学习算法、C-Q学习算法在栅格环境中进行仿真实验。仿真实验结果表明,C-Q学习算法在路径长度、规划时间、数据效率和决策准确度等多个指标上均优于其余两种算法。展开更多
文摘提升Q学习(Q-learning)算法在复杂环境中的数据效率与决策准确度,无疑是算法性能优化所面临的关键挑战。将因果模型引入Q学习算法,通过揭示变量间的因果关系,从而提高Q学习算法的性能是新兴且热门的研究方向。该文提出一种基于因果模型的Q学习算法,C-Q学习(Causal-model based Q-learning)算法。该算法包括基于智能体利用Q学习算法与环境交互过程中关键变量之间的因果关系,构建结构因果模型;采用因果推断理论中的后门调整的方法去除模型中影响奖励的混淆因子所引起的混淆效应,评估了更为准确的Q值,并且精准识别出每个状态下可能获得最高奖励的动作,优化Q学习算法的动作选择过程。最后,将Q学习算法、Eva-Q学习算法、C-Q学习算法在栅格环境中进行仿真实验。仿真实验结果表明,C-Q学习算法在路径长度、规划时间、数据效率和决策准确度等多个指标上均优于其余两种算法。