期刊文献+
共找到93篇文章
< 1 2 5 >
每页显示 20 50 100
基于部分可观察马尔可夫决策过程的多被动传感器组网协同反隐身探测任务规划 被引量:12
1
作者 万开方 高晓光 +1 位作者 李波 梅军峰 《兵工学报》 EI CAS CSCD 北大核心 2015年第4期731-743,共13页
针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控... 针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控制系统结构,提出了基于无迹卡尔曼滤波(UKF)的信念状态更新方法和基于蒙特卡洛Rollout采样(MCRS)的Q值估计方法,并设计了CCSP基本策略。仿真结果表明,所建立的模型能够实现多被动传感器的高效管理调度,能够控制多被动传感器对隐身目标进行有效探测跟踪,即模型有效性得到了验证。 展开更多
关键词 控制科学与技术 传感器技术 反隐身 多传感器组网 部分可观察马尔可夫决策过程 信念状态 任务规划
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的受控无线网络系统动态资源分配 被引量:2
2
作者 李萌 司鹏搏 +1 位作者 孙恩昌 张延华 《高技术通讯》 北大核心 2017年第3期220-227,共8页
研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数... 研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数据传输误码率作为反馈观测对象,对通信小区内基站天线开启数与用户接入数进行动态资源最优匹配。仿真结果表明,这种方法能够有效提升系统传输能效性与可靠性,降低传输误码率,改善系统资源动态匹配控制性能。 展开更多
关键词 受控网络 反馈策略 资源分配 部分可观察马尔可夫决策过程(pomdp)
在线阅读 下载PDF
部分可观察马尔可夫决策过程研究进展 被引量:3
3
作者 仵博 吴敏 《计算机工程与设计》 CSCD 北大核心 2007年第9期2116-2119,2126,共5页
部分可观察马尔可夫决策过程是通过引入信念状态空间将非马尔可夫链问题转化为马尔可夫链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支。介绍了部分可观察马尔可夫决策过程的基本原理和决策过程,然后介绍了3种... 部分可观察马尔可夫决策过程是通过引入信念状态空间将非马尔可夫链问题转化为马尔可夫链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支。介绍了部分可观察马尔可夫决策过程的基本原理和决策过程,然后介绍了3种典型的算法,它们分别是Littman等人的Witness算法、Incremental Pruning算法和Pineau等人的基于点的值迭代算法,对这3种算法进行了分析比较。讲述部分可观察马尔可夫决策过程的应用。 展开更多
关键词 部分可观察马尔可夫 决策算法 智能体 马尔可夫 值迭代算法
在线阅读 下载PDF
基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法 被引量:1
4
作者 仵博 陈鑫 +1 位作者 郑红燕 冯延蓬 《电子与信息学报》 EI CSCD 北大核心 2013年第12期2901-2907,共7页
针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和... 针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭代,加快降维速度。该算法不仅保证降维前后值函数不发生改变,又保留了其分段线性凸特性。实验结果表明,该算法具有较低误差率和较高收敛性。 展开更多
关键词 信息处理 部分可观察马尔可夫决策过程 信念状态空间 非负矩阵分解 值直接压缩 维数灾
在线阅读 下载PDF
部分可观察马尔科夫决策过程优化不稳定型心绞痛中西医结合临床治疗方案的建模方法与验证研究 被引量:13
5
作者 冯妍 冯奇 +3 位作者 王以新 邱禹 周雪忠 徐浩 《中国全科医学》 CAS 北大核心 2020年第17期2181-2185,共5页
背景部分可观察马尔科夫决策过程(POMDP)是一种解决序列决策问题的数学算法,在医学领域中常应用于复杂治疗方案的动态优化。其在不稳定型心绞痛(UA)中西医结合临床治疗方案优化中的应用已进行了初步尝试。目的详细描述POMDP在UA中西医... 背景部分可观察马尔科夫决策过程(POMDP)是一种解决序列决策问题的数学算法,在医学领域中常应用于复杂治疗方案的动态优化。其在不稳定型心绞痛(UA)中西医结合临床治疗方案优化中的应用已进行了初步尝试。目的详细描述POMDP在UA中西医结合临床治疗方案优化过程中的建模方法并对模型的可靠性做出初步验证。方法收集中国中医科学院西苑医院、中国中医科学院广安门医院、中日友好医院、北京市中医院、通州区中医院、东直门医院、怀柔中医医院、北京大学人民医院2008-2010年2212例UA患者结构化住院病历111060条记录。将UA证候要素类型为气虚、血瘀的患者随机分为测试组732例和验证组732例,对测试组患者应用POMDP得出一组最优治疗方案的核心处方,在验证组患者中筛选符合方案的患者(作为优化组),与不符合方案的患者(作为对照组)进行血瘀证积分、远期终点事件(主要终点事件包括心血管死亡、非致命性心肌梗死、血运重建术,次要终点事件包括脑卒中、因急性冠脉综合征再住院、心功能不全、其他血栓并发症)发生情况的比较,验证方案的临床疗效。结果气虚优化组(n=152)、血瘀优化组(n=127)患者血瘀证积分降分分别为(5.29±2.64)、(4.87±3.04)分,均高于对照组,差异有统计学意义(P<0.05)。气虚优化组、血瘀优化组远期终点事件发生率分别为16.4%(25/152)、12.6%(16/127),与对照组比较,差异无统计学意义(P>0.05)。结论POMDP可以实现UA中西医结合临床治疗方案的优化,模型经验证较为稳定可靠,可尝试为其他疾病临床方案的制定提供更为细化、深入的优化方案。 展开更多
关键词 心绞痛 不稳定型 冠心病 部分可观察马尔科夫决策过程 建模 验证
在线阅读 下载PDF
部分可观测马尔可夫决策过程算法综述 被引量:10
6
作者 桂林 武小悦 《系统工程与电子技术》 EI CSCD 北大核心 2008年第6期1058-1064,共7页
部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础... 部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础。介绍了POMDP模型后,对离散时间、有限状态集的POMDP精确算法和近似算法进行了综述,分析了造成POMDP难以求解的主要原因,提出了进一步的研究方向。 展开更多
关键词 部分可观测马尔可夫决策过程 算法 综述
在线阅读 下载PDF
基于部分可观测马尔可夫决策过程的水声传感器网络介质访问控制协议 被引量:2
7
作者 徐明 刘广钟 《计算机应用》 CSCD 北大核心 2015年第11期3047-3050,3074,共5页
针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为... 针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为多个离散等级来表达节点的状态信息。此后,接收节点通过信道状态观测和接入动作的历史信息对信道的占用概率进行预测,从而得出发送节点的信道最优调度策略;发送节点按照该策略中的调度序列在各自所分配的时隙内依次与接收节点进行通信,传输数据包。通信完成后,相关节点根据网络转移概率的统计量估计下一个时隙的状态。仿真实验表明,与传统的水声传感器网络介质访问控制协议相比,基于POMDP的介质访问控制协议可以提高数据包传输成功率和网络吞吐量,并且降低网络的能量消耗。 展开更多
关键词 水声传感器网络 部分可观测马尔可夫决策过程 介质访问控制 信道 调度
在线阅读 下载PDF
一种基于部分可观察马尔可夫决策过程的股票交易策略
8
作者 黄福威 张宁 《东莞理工学院学报》 2023年第1期43-50,共8页
近年来涌现了许多把深度强化学习应用到股票交易策略的研究。深度强化学习通常依赖于马尔可夫决策过程建模,但是股票市场中交易策略的制定需要考虑历史交易数据中包含的信息。因此,本文通过部分可观察马尔可夫决策过程对股票市场建模,... 近年来涌现了许多把深度强化学习应用到股票交易策略的研究。深度强化学习通常依赖于马尔可夫决策过程建模,但是股票市场中交易策略的制定需要考虑历史交易数据中包含的信息。因此,本文通过部分可观察马尔可夫决策过程对股票市场建模,并采用长短期记忆网络和优势演员评论家算法来构建股票交易策略。通过在道琼斯工业平均指数成份股数据集上进行实验,实验结果表明本文所设计的股票交易策略构建方法可以挖掘隐藏在历史数据中的有效信息,获得稳定且有效的交易策略。 展开更多
关键词 股票交易 部分可观察马尔可夫决策过程 优势演员评论家算法
在线阅读 下载PDF
基于部分可观察马氏决策过程的频谱接入方法 被引量:2
9
作者 侯国涛 韩慧 胡俊 《电波科学学报》 EI CSCD 北大核心 2013年第3期553-558,共6页
在次用户无法准确掌握信道被占用情况下,为了减少对主用户的干扰,提出了一种基于部分可观察马尔科夫决策过程(Partially Observable Markov DecisionProcesses,POMDP)的机会式频谱接入方法.该方法把次用户在每个决策时刻从多个信道中选... 在次用户无法准确掌握信道被占用情况下,为了减少对主用户的干扰,提出了一种基于部分可观察马尔科夫决策过程(Partially Observable Markov DecisionProcesses,POMDP)的机会式频谱接入方法.该方法把次用户在每个决策时刻从多个信道中选择其中一个信道进行接入这一过程模型化为一个无限阶部分可观察马尔科夫决策过程.仿真结果表明,通过不断从外界环境中学习,次用户总可以按照目标函数最大准则选择满意的频谱空穴.该模型为动态频谱接入提供了思路. 展开更多
关键词 认知无线电 动态频谱接入 部分可观察马尔科夫决策过程
在线阅读 下载PDF
一种用于部分可观察随机域的情感计算模型
10
作者 黄向阳 张娜 +1 位作者 王旭仁 彭岩 《计算机应用与软件》 CSCD 2016年第2期73-76,114,共5页
在计算机游戏中,富有情感可以使非玩家角色表现得更加真实,同时增加游戏的趣味性以吸引更多的游戏爱好者参与。在部分可观察不确定环境提出一种基于规划的情感计算模型。首先,基于部分可观察马尔科夫决策过程提出一种成本约束的目标导... 在计算机游戏中,富有情感可以使非玩家角色表现得更加真实,同时增加游戏的趣味性以吸引更多的游戏爱好者参与。在部分可观察不确定环境提出一种基于规划的情感计算模型。首先,基于部分可观察马尔科夫决策过程提出一种成本约束的目标导向行为规划技术用于规划智能体行为;其次,在规划执行过程中结合评价与再评价的双层评价理论计算生成情感;最后,结合特定情境设计两组对比实验。实验表明该模型能够提高智能体的逼真度且更加吸引玩家。 展开更多
关键词 情感计算 目标导向行为规划 部分可观察马尔科夫决策过程 双层评价理论
在线阅读 下载PDF
基于POMDP的可伸缩视频流优化决策调度 被引量:1
11
作者 范凤军 邹君妮 +1 位作者 汪敏 熊红凯 《上海交通大学学报》 EI CAS CSCD 北大核心 2010年第3期393-397,共5页
针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结... 针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结果表明,与传统的调度算法相比,该方法有效提高了视频流的平均峰值信噪比(PSNR).随着调度规模的扩大,其性能能够逐渐逼近用户状态完全确定的理想马尔可夫决策过程(MDP)模型. 展开更多
关键词 可伸缩视频编码 部分可观测马尔可夫决策过程 优化调度 无线广播
在线阅读 下载PDF
基于部分可观马氏决策的AUV全局路径规划 被引量:2
12
作者 洪晔 边信黔 《计算机仿真》 CSCD 2007年第6期146-149,共4页
自治式水下机器人在复杂海洋环境航行时要求寻找一条从给定起始点到终止点的较优的运动路径,安全、无碰撞地绕过所有的障碍物。提出了一种基于部分可观察马尔可夫决策过程,并结合预测障碍物运动的全局路径规划新方法;给出了部分可观马... 自治式水下机器人在复杂海洋环境航行时要求寻找一条从给定起始点到终止点的较优的运动路径,安全、无碰撞地绕过所有的障碍物。提出了一种基于部分可观察马尔可夫决策过程,并结合预测障碍物运动的全局路径规划新方法;给出了部分可观马尔可夫决策的数学模型;建立了树状的分层部分可观马尔可夫决策模型,并在路径规划中应用;提出了短期预测和长期预测两种针对水下障碍物运动轨迹预测的方法;最后通过仿真实验对AUV的全局路径规划能力进行了仿真验证,为今后的实艇试验打下了很好的基础。 展开更多
关键词 自治式水下机器人 部分可观察马尔可夫决策过程 全局路径规划 仿真
在线阅读 下载PDF
不确定性环境下的自动驾驶汽车行为决策方法 被引量:2
13
作者 付新科 蔡英凤 +2 位作者 陈龙 王海 刘擎超 《汽车工程》 EI CSCD 北大核心 2024年第2期211-221,259,共12页
在真实驾驶环境中,由于感知数据的噪声和其他交通参与者难以预测的行为意图,自动驾驶汽车如何在高度交互的复杂驾驶环境中考虑不确定性因素的影响,做出合理的决策,是当前决策规划系统须解决的主要问题之一。本文提出了一种不确定性环境... 在真实驾驶环境中,由于感知数据的噪声和其他交通参与者难以预测的行为意图,自动驾驶汽车如何在高度交互的复杂驾驶环境中考虑不确定性因素的影响,做出合理的决策,是当前决策规划系统须解决的主要问题之一。本文提出了一种不确定性环境下的自动驾驶汽车行为决策方法,为消除不确定性的影响,将行为决策过程转化为部分可观察马尔可夫决策过程(POMDP)。同时为解决POMDP模型计算复杂度过高的问题,首次将复杂网络理论应用于自动驾驶汽车周围微观的驾驶环境,对自动驾驶汽车驾驶环境进行动态建模,实现了车辆节点间交互关系的有效刻画,并对重要车辆节点进行科学筛选,用于指导自车的行为决策,实现对关键车辆节点的精准识别和决策空间的剪枝。在仿真环境中验证了所提方法的有效性,实验结果表明,与现有最先进的行为决策方法相比,所提出的方法拥有更高的计算效率,且拥有更好的性能和灵活性。 展开更多
关键词 自动驾驶汽车 行为决策 部分可观察马尔可夫决策过程 复杂网络
在线阅读 下载PDF
基于POMDP模型的智能雷达干扰决策方法 被引量:1
14
作者 冯路为 刘松涛 徐华志 《系统工程与电子技术》 EI CSCD 北大核心 2023年第9期2755-2760,共6页
为了有效提高复杂电磁环境下对非合作方工作模式未知的智能雷达的干扰效率和准确率,提出了一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)的干扰决策方法。首先,根据智能雷达的工作特点构建... 为了有效提高复杂电磁环境下对非合作方工作模式未知的智能雷达的干扰效率和准确率,提出了一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)的干扰决策方法。首先,根据智能雷达的工作特点构建了智能雷达对抗系统的POMDP模型,采用非参数的、基于样本的信念分布反映智能体对环境的认知,并利用贝叶斯滤波更新智能体对环境的信念。然后,以信息熵作为评估准则,令干扰机选择信息熵最大的干扰样式不断尝试。最后,通过仿真实验与传统Q-学习法和经验决策法的干扰决策性能进行比较,验证所提方法的优越性。结果表明,所提方法能够根据未知雷达状态变化动态地选择最优干扰方式,且能更快实现对智能雷达的干扰决策。 展开更多
关键词 智能雷达 强化学习 部分可观测马尔可夫决策过程模型 贝叶斯滤波
在线阅读 下载PDF
基于近端策略优化算法和Mask-TIT网络的多功能雷达干扰决策方法
15
作者 娄雨璇 孙闽红 尹帅 《数据采集与处理》 CSCD 北大核心 2024年第6期1355-1369,共15页
为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对... 为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对抗场景建模为部分可观察马尔可夫决策过程(Partially observable Markov decision process,POMDP),根据雷达工作原理设计了新的状态转移函数和奖励函数,并根据多功能雷达层级模型设计了观测空间。其次,利用Transformer对序列数据的表征能力和雷达干扰样式的特点设计了一种Mask?TIT网络结构,用于构建更强大的Actor?Critic网络架构。最后,使用近端策略优化算法进行优化学习。实验结果表明,该算法较现有方法收敛所需交互数据平均减少25.6%,并且收敛后的方差显著降低。 展开更多
关键词 雷达干扰决策 部分可观察马尔可夫决策过程 强化学习 TRANSFORMER 近端策略优化
在线阅读 下载PDF
基于POMDP的不稳定心绞痛中西医结合治疗方案优化研究 被引量:14
16
作者 冯妍 徐浩 +2 位作者 刘凯 周雪忠 陈可冀 《中国中西医结合杂志》 CAS CSCD 北大核心 2013年第7期878-882,共5页
目的初步优化中西医结合防治不稳定心绞痛(unstable angina,UA)的综合治疗方案。方法基于部分可观察的马尔科夫决策过程模型(Partially Observable Markov Decision Process,POMDP)的方法,选择气虚、血瘀、痰浊3个主要证侯要素,对UA住... 目的初步优化中西医结合防治不稳定心绞痛(unstable angina,UA)的综合治疗方案。方法基于部分可观察的马尔科夫决策过程模型(Partially Observable Markov Decision Process,POMDP)的方法,选择气虚、血瘀、痰浊3个主要证侯要素,对UA住院患者的诊治情况进行深层次数据挖掘、分析,客观评价UA中西医结合的疗效。结果 UA气虚证、血瘀证、痰浊证患者的推荐治疗方案依次为:硝酸酯类+他汀类+氯吡格雷+血管紧张素Ⅱ受体阻滞剂+肝素类+黄芪+党参+茯苓+白术(ADR=0.85077869);硝酸酯类+阿司匹林+氯吡格雷+他汀类+肝素类+当归+红花+桃仁+赤芍(ADR=0.70773000);硝酸酯类+阿司匹林+他汀类+血管紧张素转换酶抑制剂+栝蒌+薤白+半夏+陈皮(ADR=0.72509600)。结论本研究基于POMDP优化了UA的治疗方案,可作为进一步规范和制定中西医结合治疗UA方案的参考。 展开更多
关键词 部分可观察马尔科夫决策过程 不稳定心绞痛 治疗方案优化
在线阅读 下载PDF
部分可观测信息条件下系统最佳检修策略分析 被引量:4
17
作者 尚永爽 许爱强 +2 位作者 李文海 王怡苹 盛沛 《系统工程与电子技术》 EI CSCD 北大核心 2012年第4期749-753,共5页
针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故... 针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故障率和可靠度函数,不仅考虑系统的工作时间,也考虑系统的退化状态。最后,以系统长期运行的最小平均费用率为目标,得到最佳的检测周期和最优的更换策略。实例研究表明,该方法可为保障人员提供科学的维修决策依据。 展开更多
关键词 视情维修 维修决策 部分可观测马尔可夫决策过程 马尔可夫模型 比例故障率模型 退化系统
在线阅读 下载PDF
多智能体系统分散式通信决策研究 被引量:3
18
作者 郑延斌 郭凌云 刘晶晶 《计算机应用》 CSCD 北大核心 2012年第10期2875-2878,共4页
通信是多智能体系统(MAS)之间协调与协作的最有效和最直接的方法,然而通信的代价却限制了该方法的使用。为了减少MAS协调过程中的通信量,提出一种启发式算法,使Agent仅选择能够改善团队期望回报的观察信息进行通信。实验结果证明,对通... 通信是多智能体系统(MAS)之间协调与协作的最有效和最直接的方法,然而通信的代价却限制了该方法的使用。为了减少MAS协调过程中的通信量,提出一种启发式算法,使Agent仅选择能够改善团队期望回报的观察信息进行通信。实验结果证明,对通信信息的选择能够高效的利用通信带宽,有助于提高系统的性能。 展开更多
关键词 多智能体系统 协作 分散式通信 马尔可夫决策过程 部分可观察马尔可夫决策过程
在线阅读 下载PDF
基于分层POMDP的智能轮椅行为控制方法 被引量:3
19
作者 陶永 王田苗 +1 位作者 魏洪兴 陈殿生 《高技术通讯》 CAS CSCD 北大核心 2010年第6期613-617,共5页
针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综... 针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综合了动作的不确定性和状态的部分可观测性,通过对环境的观测和信息的采集,得到不确定环境下的最优策略选择,进而选择相应的最优动作,从而提高了动作的执行效率。在室内家居环境下进行的交互任务与导航控制试验以及对实验结果进行的分析验证了这一方法的实时性、有效性和可靠性。 展开更多
关键词 智能轮椅 行为控制方法 分层的部分可观测马尔可夫决策过程(pomdp)模型
在线阅读 下载PDF
一种基于信念状态压缩的实时POMDP算法 被引量:6
20
作者 仵博 吴敏 《控制与决策》 EI CSCD 北大核心 2007年第12期1417-1420,共4页
针对求解部分可观察马尔可夫决策过程(POMDP)信念状态空间是NP难问题,提出一种信念状态空间压缩(BSSC)算法.将信念状态空间的高维压缩到低维,利用动态贝叶斯网络对状态转移函数、观察函数和报酬函数进行压缩,降低求解规模,达到实时决策... 针对求解部分可观察马尔可夫决策过程(POMDP)信念状态空间是NP难问题,提出一种信念状态空间压缩(BSSC)算法.将信念状态空间的高维压缩到低维,利用动态贝叶斯网络对状态转移函数、观察函数和报酬函数进行压缩,降低求解规模,达到实时决策的目的.对比实验表明,所提出的算法可以快速求解最优策略和最优值函数. 展开更多
关键词 马尔可夫 可观察马尔可夫决策过程 决策算法 决策
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部