期刊文献+
共找到131篇文章
< 1 2 7 >
每页显示 20 50 100
部分可观测马尔可夫决策过程算法综述 被引量:10
1
作者 桂林 武小悦 《系统工程与电子技术》 EI CSCD 北大核心 2008年第6期1058-1064,共7页
部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础... 部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础。介绍了POMDP模型后,对离散时间、有限状态集的POMDP精确算法和近似算法进行了综述,分析了造成POMDP难以求解的主要原因,提出了进一步的研究方向。 展开更多
关键词 部分可观测马尔可夫决策过程 算法 综述
在线阅读 下载PDF
基于部分可观测马尔可夫决策过程的水声传感器网络介质访问控制协议 被引量:2
2
作者 徐明 刘广钟 《计算机应用》 CSCD 北大核心 2015年第11期3047-3050,3074,共5页
针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为... 针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为多个离散等级来表达节点的状态信息。此后,接收节点通过信道状态观测和接入动作的历史信息对信道的占用概率进行预测,从而得出发送节点的信道最优调度策略;发送节点按照该策略中的调度序列在各自所分配的时隙内依次与接收节点进行通信,传输数据包。通信完成后,相关节点根据网络转移概率的统计量估计下一个时隙的状态。仿真实验表明,与传统的水声传感器网络介质访问控制协议相比,基于POMDP的介质访问控制协议可以提高数据包传输成功率和网络吞吐量,并且降低网络的能量消耗。 展开更多
关键词 水声传感器网络 部分可观测马尔可夫决策过程 介质访问控制 信道 调度
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的多被动传感器组网协同反隐身探测任务规划 被引量:12
3
作者 万开方 高晓光 +1 位作者 李波 梅军峰 《兵工学报》 EI CAS CSCD 北大核心 2015年第4期731-743,共13页
针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控... 针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控制系统结构,提出了基于无迹卡尔曼滤波(UKF)的信念状态更新方法和基于蒙特卡洛Rollout采样(MCRS)的Q值估计方法,并设计了CCSP基本策略。仿真结果表明,所建立的模型能够实现多被动传感器的高效管理调度,能够控制多被动传感器对隐身目标进行有效探测跟踪,即模型有效性得到了验证。 展开更多
关键词 控制科学与技术 传感器技术 反隐身 多传感器组网 部分可观察马尔可夫决策过程 信念状态 任务规划
在线阅读 下载PDF
马尔可夫决策过程的限界模型检测 被引量:8
4
作者 周从华 邢支虎 +1 位作者 刘志锋 王昌达 《计算机学报》 EI CSCD 北大核心 2013年第12期2587-2600,共14页
限界模型检测避免了符号模型检测反应式系统中构建二叉图时出现的空间快速增长,已经被证明是缓解状态空间爆炸问题的有力技术.文中遵循限界模型检测的思想,对马尔可夫决策过程提出一种限界模型检测技术,从而避免构建多端二叉图时空间的... 限界模型检测避免了符号模型检测反应式系统中构建二叉图时出现的空间快速增长,已经被证明是缓解状态空间爆炸问题的有力技术.文中遵循限界模型检测的思想,对马尔可夫决策过程提出一种限界模型检测技术,从而避免构建多端二叉图时空间的快速增长.具有非确定选择刻画能力是马尔可夫决策过程最大的特性,针对该特性首先定义概率计算树逻辑的限界语义,并证明其正确性;然后基于不同界下所计算概率度量序列的演化趋势,设计了限界检测过程终止的判断准则;最后将限界模型检测过程转换为线性方程组的求解问题.实验结果说明限界模型检测技术在证据较短的情况下,所需内存空间少于无界模型检测算法. 展开更多
关键词 模型检测 限界模型检测 概率计算树逻辑 马尔可夫决策过程 状态空间爆炸
在线阅读 下载PDF
基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法 被引量:1
5
作者 仵博 陈鑫 +1 位作者 郑红燕 冯延蓬 《电子与信息学报》 EI CSCD 北大核心 2013年第12期2901-2907,共7页
针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和... 针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭代,加快降维速度。该算法不仅保证降维前后值函数不发生改变,又保留了其分段线性凸特性。实验结果表明,该算法具有较低误差率和较高收敛性。 展开更多
关键词 信息处理 部分可观察马尔可夫决策过程 信念状态空间 非负矩阵分解 值直接压缩 维数灾
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的受控无线网络系统动态资源分配 被引量:2
6
作者 李萌 司鹏搏 +1 位作者 孙恩昌 张延华 《高技术通讯》 北大核心 2017年第3期220-227,共8页
研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数... 研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数据传输误码率作为反馈观测对象,对通信小区内基站天线开启数与用户接入数进行动态资源最优匹配。仿真结果表明,这种方法能够有效提升系统传输能效性与可靠性,降低传输误码率,改善系统资源动态匹配控制性能。 展开更多
关键词 受控网络 反馈策略 资源分配 部分可观察马尔可夫决策过程(POMDP)
在线阅读 下载PDF
基于马尔可夫决策过程的火力目标匹配模型研究
7
作者 施园园 张孝臣 《舰船电子工程》 2011年第7期32-34,共3页
通过分析了马尔可夫决策过程应用于火力目标匹配的可行性,建立了基于马尔可夫决策过程的火力目标匹配模型,并通过具体例子进行计算、分析和评估,证明了该决策过程的科学性和可行性。
关键词 马尔可夫决策过程 目标匹配 模型
在线阅读 下载PDF
求解部分可观测马氏决策过程的强化学习算法 被引量:5
8
作者 王学宁 贺汉根 徐昕 《控制与决策》 EI CSCD 北大核心 2004年第11期1263-1266,共4页
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来... 针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高. 展开更多
关键词 强化学习 部分可观测Markov决策过程 Sarsa学习 无记忆策略
在线阅读 下载PDF
一种基于部分可观察马尔可夫决策过程的股票交易策略
9
作者 黄福威 张宁 《东莞理工学院学报》 2023年第1期43-50,共8页
近年来涌现了许多把深度强化学习应用到股票交易策略的研究。深度强化学习通常依赖于马尔可夫决策过程建模,但是股票市场中交易策略的制定需要考虑历史交易数据中包含的信息。因此,本文通过部分可观察马尔可夫决策过程对股票市场建模,... 近年来涌现了许多把深度强化学习应用到股票交易策略的研究。深度强化学习通常依赖于马尔可夫决策过程建模,但是股票市场中交易策略的制定需要考虑历史交易数据中包含的信息。因此,本文通过部分可观察马尔可夫决策过程对股票市场建模,并采用长短期记忆网络和优势演员评论家算法来构建股票交易策略。通过在道琼斯工业平均指数成份股数据集上进行实验,实验结果表明本文所设计的股票交易策略构建方法可以挖掘隐藏在历史数据中的有效信息,获得稳定且有效的交易策略。 展开更多
关键词 股票交易 部分可观察马尔可夫决策过程 优势演员评论家算法
在线阅读 下载PDF
基于部分可观测马尔科夫决策过程的C-V2V频谱接入算法
10
作者 张雪飞 《数字通信世界》 2023年第3期33-35,共3页
文章基于部分可观测马尔科夫决策过程,提出一种C-V2V(Cellular Vehicle-to-Vehicle)频谱接入算法,并在既定的网络模型下,通过仿真过程验证了本算法可有效提高车辆用户接入频谱后的吞吐量,从而改善C-V2V通信网络服务质量,可应用于交通事... 文章基于部分可观测马尔科夫决策过程,提出一种C-V2V(Cellular Vehicle-to-Vehicle)频谱接入算法,并在既定的网络模型下,通过仿真过程验证了本算法可有效提高车辆用户接入频谱后的吞吐量,从而改善C-V2V通信网络服务质量,可应用于交通事故、车辆监督管理等领域。 展开更多
关键词 C-V2V 部分可观测马尔科夫决策过程 频谱接入
在线阅读 下载PDF
马尔可夫决策过程自适应决策的进展 被引量:6
11
作者 李江洪 韩正之 《控制与决策》 EI CSCD 北大核心 2001年第1期7-11,共5页
在介绍一般马尔可夫决策过程的基础上 ,分析了当前主要马尔可夫过程自适应决策方法的基本思想、具体算法实现以及相应结论 ,总结了现有马尔可夫过程自适应决策算法的特点 。
关键词 马尔可夫过程 自适应决策 目标函数 随机化 解析模型
在线阅读 下载PDF
电力设备检修策略的马尔可夫决策 被引量:22
12
作者 郭基伟 柳纲 +1 位作者 唐国庆 王英 《电力系统及其自动化学报》 CSCD 2004年第4期6-10,共5页
建立了基于马尔可夫过程的电力设备老化模型 ,在此基础上 ,应用马尔可夫决策方法对设备检修方案进行了优化 ,分析了不同目标条件下应该采用的优化检修方案。计算结果表明 ,本文提出的模型可以定量比较不同检修方案对设备的影响 。
关键词 马尔可夫决策过程 老化模型 检修优化 可靠性
在线阅读 下载PDF
基于Markov决策过程的交互虚拟人情感计算模型 被引量:2
13
作者 王国江 王志良 +3 位作者 陈锋军 王玉洁 祝长生 陶伟 《计算机科学》 CSCD 北大核心 2006年第12期135-138,共4页
情感在生物体的交流和适应性方面起到了关键作用。同样,交互虚拟人也需要有恰如其分的表达情感的能力。由于具有情感交互能力的虚拟人在虚拟现实、电子教育、娱乐等领域均有着广阔的应用前景,当前,在虚拟人中加入情感成分的研究受到了... 情感在生物体的交流和适应性方面起到了关键作用。同样,交互虚拟人也需要有恰如其分的表达情感的能力。由于具有情感交互能力的虚拟人在虚拟现实、电子教育、娱乐等领域均有着广阔的应用前景,当前,在虚拟人中加入情感成分的研究受到了越来越多的重视。本文提出了一个人工心理的情感计算模型,模型用马尔可夫过程来描述情感的变化过程,并且使用马尔可夫决策过程建立了情感、个性与环境之间的联系,并且我们把该模型应用到了一个交互虚拟人系统中。研究结果表明,模型能够构建具有不同性格特征的虚拟人,使之产生较为自然的情感反应。 展开更多
关键词 交互虚拟人 情感模型 人工心理 马尔可夫决策过程
在线阅读 下载PDF
嵌入式通信中间件的马尔可夫路由决策与选择 被引量:1
14
作者 贾智平 刘甜甜 +1 位作者 张承慧 Edwin H.-M.Sha 《电子学报》 EI CAS CSCD 北大核心 2007年第7期1228-1233,共6页
针对嵌入式设备互连环境和嵌入式通信中间件的特点,结合马尔可夫决策过程理论,建立了解决路由问题的有限阶段模型,并修改马尔可夫有限阶段模型的向后递归迭代算法,提出了马尔可夫有限阶段决策路由算法MFHDR(Markov Finite Horizon Decis... 针对嵌入式设备互连环境和嵌入式通信中间件的特点,结合马尔可夫决策过程理论,建立了解决路由问题的有限阶段模型,并修改马尔可夫有限阶段模型的向后递归迭代算法,提出了马尔可夫有限阶段决策路由算法MFHDR(Markov Finite Horizon Decision Routing).该算法具有分布计算和自我学习的特性,从而降低了单台嵌入式设备的工作强度,均衡了各台设备的负载,具有较好的时间和空间复杂度,并且能够有效的避免环路的产生. 展开更多
关键词 嵌入式设备互连 嵌入式通信中间件 马尔可夫决策过程 有限阶段模型 分布计算
在线阅读 下载PDF
最短路径树的马尔可夫有限阶段决策算法 被引量:1
15
作者 刘甜甜 贾智平 Edwin H.-M.Sha 《计算机科学》 CSCD 北大核心 2007年第8期266-270,共5页
本文从决策的角度出发,结合马尔可夫决策过程理论,建立了计算最短路径树(SPT)的有限阶段决策模型。引入一个辅助图:反转图,结合它修改了模型的理论求解算法,提出了SPT反转递归迭代算法,并证明了算法的正确性。在此基础上,又提出了不使... 本文从决策的角度出发,结合马尔可夫决策过程理论,建立了计算最短路径树(SPT)的有限阶段决策模型。引入一个辅助图:反转图,结合它修改了模型的理论求解算法,提出了SPT反转递归迭代算法,并证明了算法的正确性。在此基础上,又提出了不使用反转图的改进模型和算法。算法的时间和空间复杂度分析表明:本文提出的算法具有分布式并行计算的特点,可以均衡各节点的工作负载,降低时间和空间复杂度,并可以有效防止环路的产生,因此可以有效应用于资源匮乏的嵌入式互连环境和对等网络环境中。 展开更多
关键词 最短路径树 马尔可夫决策过程 有限阶段模型 反转图 分布式并行计算
在线阅读 下载PDF
基于SMDP的安全防护基础设施网络切片服务响应模型
16
作者 王璐茜 葛洪武 +1 位作者 朱晓明 贾哲 《计算机测量与控制》 2025年第4期299-305,共7页
在创建各种安全防护基础切片络切片的过程中,安全防护基础设施提供商主要负责响应切片服务请求和分配资源,但其切片资源有限,切片服务存在响应速度慢的问题;因此,针对安全防护基础设施提供商的服务决策过程,提出了一种基于半马尔可夫决... 在创建各种安全防护基础切片络切片的过程中,安全防护基础设施提供商主要负责响应切片服务请求和分配资源,但其切片资源有限,切片服务存在响应速度慢的问题;因此,针对安全防护基础设施提供商的服务决策过程,提出了一种基于半马尔可夫决策过程的安全防护基础设施网络切片服务响应模型;经过仿真分析,基于SMDP的模型在有限的资源条件下,能够提高切片资源利用效率并最大化收益,高效地响应切片服务请求。 展开更多
关键词 安全防护基础设施 网络切片 马尔可夫决策过程 安全防护基础设施提供商 服务响应模型
在线阅读 下载PDF
基于机器学习的地铁轨道不平顺维修决策优化模型
17
作者 邱松林 《中文科技期刊数据库(全文版)工程技术》 2024年第7期0071-0074,共4页
针对传统地铁轨道不平顺维修决策慢的问题,介绍一种基于机器学习的地铁轨道不平顺维修决策优化模型。首先,简单对问题进行了描述,然后以自适应学习马尔可夫决策过程为依据,构建出轨道不平顺维修决策优化模型,并提出了该模型的求解算法... 针对传统地铁轨道不平顺维修决策慢的问题,介绍一种基于机器学习的地铁轨道不平顺维修决策优化模型。首先,简单对问题进行了描述,然后以自适应学习马尔可夫决策过程为依据,构建出轨道不平顺维修决策优化模型,并提出了该模型的求解算法。最后,通过具体案例对该决策优化模型的应用效果进行了分析,通过应用分析可以发现,相对于传统维修决策模型来说,本模型可以减少10%左右的维修成本,表明该维修决策优化模型是合理的,可推广到现代地铁轨道维修领域。 展开更多
关键词 机器学习 自适应学习马尔可夫决策过程 地铁轨道 决策优化模型
在线阅读 下载PDF
基于POMDP模型的智能雷达干扰决策方法 被引量:1
18
作者 冯路为 刘松涛 徐华志 《系统工程与电子技术》 EI CSCD 北大核心 2023年第9期2755-2760,共6页
为了有效提高复杂电磁环境下对非合作方工作模式未知的智能雷达的干扰效率和准确率,提出了一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)的干扰决策方法。首先,根据智能雷达的工作特点构建... 为了有效提高复杂电磁环境下对非合作方工作模式未知的智能雷达的干扰效率和准确率,提出了一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)的干扰决策方法。首先,根据智能雷达的工作特点构建了智能雷达对抗系统的POMDP模型,采用非参数的、基于样本的信念分布反映智能体对环境的认知,并利用贝叶斯滤波更新智能体对环境的信念。然后,以信息熵作为评估准则,令干扰机选择信息熵最大的干扰样式不断尝试。最后,通过仿真实验与传统Q-学习法和经验决策法的干扰决策性能进行比较,验证所提方法的优越性。结果表明,所提方法能够根据未知雷达状态变化动态地选择最优干扰方式,且能更快实现对智能雷达的干扰决策。 展开更多
关键词 智能雷达 强化学习 部分可观测马尔可夫决策过程模型 贝叶斯滤波
在线阅读 下载PDF
部分可观测信息条件下系统最佳检修策略分析 被引量:4
19
作者 尚永爽 许爱强 +2 位作者 李文海 王怡苹 盛沛 《系统工程与电子技术》 EI CSCD 北大核心 2012年第4期749-753,共5页
针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故... 针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故障率和可靠度函数,不仅考虑系统的工作时间,也考虑系统的退化状态。最后,以系统长期运行的最小平均费用率为目标,得到最佳的检测周期和最优的更换策略。实例研究表明,该方法可为保障人员提供科学的维修决策依据。 展开更多
关键词 视情维修 维修决策 部分可观测马尔可夫决策过程 马尔可夫模型 比例故障率模型 退化系统
在线阅读 下载PDF
动态武器目标分配问题的马尔可夫性 被引量:22
20
作者 蔡怀平 刘靖旭 陈英武 《国防科技大学学报》 EI CAS CSCD 北大核心 2006年第3期124-127,共4页
动态武器目标分配(weapon target assignment,WTA)问题是军事运筹学研究的重要理论问题,也是作战指挥决策中迫切需要解决的现实问题。在对动态WTA问题进行描述分析的基础上,运用随机过程理论证明了动态WTA过程的马尔可夫性;给出了该马... 动态武器目标分配(weapon target assignment,WTA)问题是军事运筹学研究的重要理论问题,也是作战指挥决策中迫切需要解决的现实问题。在对动态WTA问题进行描述分析的基础上,运用随机过程理论证明了动态WTA过程的马尔可夫性;给出了该马尔可夫决策过程的状态转移概率的解析表达式,并对其状态特点进行了简要分析。研究结果可以为动态WTA及相关问题的研究提供理论和方法依据。 展开更多
关键词 运筹学 动态武器目标分配 马尔可夫决策过程 数学模型
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部