期刊文献+
共找到124篇文章
< 1 2 7 >
每页显示 20 50 100
非时齐部分可观察Markov决策规划的最优策略问题 被引量:1
1
作者 张继红 郭世贞 章芸 《运筹学学报》 CSCD 北大核心 2004年第2期81-87,共7页
本文讨论了一类非时齐部分可观察Markov决策模型.在不改变状态空间可列 性的条件下,把该模型转化为[5]中的一般化折扣模型,从而解决了其最优策略问题,并 且得到了该模型的有限阶段逼近算法,其中该算法涉及的状态是可列的.
关键词 部分可观察markov决策规划 最优策略 非时齐 折扣模型 逼近
在线阅读 下载PDF
部分可观测Markov环境下的激励学习综述
2
作者 谢丽娟 陈焕文 《长沙电力学院学报(自然科学版)》 2002年第2期23-27,共5页
对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为... 对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为基于状态的值函数学习 ;一类为策略空间的直接搜索 .最后分析了这些方法尚存在的问题 ,并指出了未来可能的研究方向 . 展开更多
关键词 激励学习 部分可观测markov决策过程 机器学习 人工智能 智能体 值函数学习 策略空间
在线阅读 下载PDF
考虑综合性能最优的非短视快速天基雷达多目标跟踪资源调度算法
3
作者 王增福 杨广宇 金术玲 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第1期253-269,共17页
合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基... 合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基于部分可观测的马尔可夫决策过程(POMDP)的资源调度模型;采用拉格朗日松弛法将多约束下的多目标跟踪资源调度问题转换分解为多个无约束的子问题;针对连续状态空间、连续动作空间及连续观测空间引起的维数灾难问题,采用基于蒙特卡罗树搜索(MCTS)的在线POMDP算法—POMCPOW算法进行求解,最终提出了一种综合多指标性能的非短视快速天基雷达多目标跟踪资源调度算法。仿真表明,与已有调度算法相比,所提算法资源分配更合理,系统性能更优。 展开更多
关键词 天基雷达 资源调度 多目标跟踪 部分可观测的马尔可夫决策过程 蒙特卡罗树搜索(MCTS)
在线阅读 下载PDF
基于深度注意力Q网络的机器人路径规划研究
4
作者 马海杰 薛安虎 《传感器与微系统》 CSCD 北大核心 2024年第12期66-70,75,共6页
针对传统机器人路径规划算法在部分可观测环境中收敛速度慢、准确率低的问题,提出基于深度注意力Q网络(DAQN)的机器人路径规划方法。首先,为克服传统深度Q网络(DQN)在处理部分可观测马尔科夫决策过程(POMDP)时由于缺乏记忆单元而导致的... 针对传统机器人路径规划算法在部分可观测环境中收敛速度慢、准确率低的问题,提出基于深度注意力Q网络(DAQN)的机器人路径规划方法。首先,为克服传统深度Q网络(DQN)在处理部分可观测马尔科夫决策过程(POMDP)时由于缺乏记忆单元而导致的局限性,提出融合注意力机制的改进DQN算法,充分利用和挖掘包含历史数据的感知信息;其次,基于人工势场(APF)法,设计机器人移动距离和方向的奖励机制,提升路径规划的准确性;最后,在二维栅格地图仿真环境下验证DAQN算法的有效性。结果表明:DAQN算法在部分可观测环境中的路径规划表现显著优于其他算法,该算法能够在复杂环境中实现更加优越的路径规划效果。 展开更多
关键词 机器人 路径规划 部分可观测马尔可夫决策过程 深度强化学习 注意力机制
在线阅读 下载PDF
基于近端策略优化算法和Mask-TIT网络的多功能雷达干扰决策方法
5
作者 娄雨璇 孙闽红 尹帅 《数据采集与处理》 CSCD 北大核心 2024年第6期1355-1369,共15页
为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对... 为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对抗场景建模为部分可观察马尔可夫决策过程(Partially observable Markov decision process,POMDP),根据雷达工作原理设计了新的状态转移函数和奖励函数,并根据多功能雷达层级模型设计了观测空间。其次,利用Transformer对序列数据的表征能力和雷达干扰样式的特点设计了一种Mask?TIT网络结构,用于构建更强大的Actor?Critic网络架构。最后,使用近端策略优化算法进行优化学习。实验结果表明,该算法较现有方法收敛所需交互数据平均减少25.6%,并且收敛后的方差显著降低。 展开更多
关键词 雷达干扰决策 部分可观察马尔可夫决策过程 强化学习 TRANSFORMER 近端策略优化
在线阅读 下载PDF
基于深度强化学习的动态频谱智能干扰算法研究
6
作者 张兰 张彪 +1 位作者 梁天一 朱辉杰 《南京邮电大学学报(自然科学版)》 北大核心 2024年第6期1-11,共11页
随着人工智能技术的不断发展,强化学习技术在提高电磁频谱控制和干扰对抗效率方面展现出巨大潜力。针对跳频通信系统抗干扰能力强、传统干扰方法效果不佳的问题,利用深度强化学习技术实现在动态频谱环境下的电磁智能干扰。首先引入部分... 随着人工智能技术的不断发展,强化学习技术在提高电磁频谱控制和干扰对抗效率方面展现出巨大潜力。针对跳频通信系统抗干扰能力强、传统干扰方法效果不佳的问题,利用深度强化学习技术实现在动态频谱环境下的电磁智能干扰。首先引入部分可观测马尔可夫决策过程对干扰机与跳频通信用户之间的通信对抗过程进行建模,然后基于卷积神经网络和长短期记忆网络设计了一个具有频谱特征挖掘和记忆回溯功能的干扰决策网络,实现基于深度强化学习的动态频谱智能干扰(Dynamic Spectrum Intelligent Jamming,DSIJ)算法。仿真实验结果表明,相较于传统DQN算法,所提DSIJ算法的干扰成功率提升了约18%。与传统的扫频干扰方法相比,其干扰成功率更是提升了约68%,从而充分证明了所提出的算法在动态频谱环境下实现智能干扰策略的有效性与显著优势。 展开更多
关键词 深度强化学习 跳频通信 智能干扰决策 部分可观测马尔可夫决策过程
在线阅读 下载PDF
基于POMDP的不稳定心绞痛中西医结合治疗方案优化研究 被引量:14
7
作者 冯妍 徐浩 +2 位作者 刘凯 周雪忠 陈可冀 《中国中西医结合杂志》 CAS CSCD 北大核心 2013年第7期878-882,共5页
目的初步优化中西医结合防治不稳定心绞痛(unstable angina,UA)的综合治疗方案。方法基于部分可观察的马尔科夫决策过程模型(Partially Observable Markov Decision Process,POMDP)的方法,选择气虚、血瘀、痰浊3个主要证侯要素,对UA住... 目的初步优化中西医结合防治不稳定心绞痛(unstable angina,UA)的综合治疗方案。方法基于部分可观察的马尔科夫决策过程模型(Partially Observable Markov Decision Process,POMDP)的方法,选择气虚、血瘀、痰浊3个主要证侯要素,对UA住院患者的诊治情况进行深层次数据挖掘、分析,客观评价UA中西医结合的疗效。结果 UA气虚证、血瘀证、痰浊证患者的推荐治疗方案依次为:硝酸酯类+他汀类+氯吡格雷+血管紧张素Ⅱ受体阻滞剂+肝素类+黄芪+党参+茯苓+白术(ADR=0.85077869);硝酸酯类+阿司匹林+氯吡格雷+他汀类+肝素类+当归+红花+桃仁+赤芍(ADR=0.70773000);硝酸酯类+阿司匹林+他汀类+血管紧张素转换酶抑制剂+栝蒌+薤白+半夏+陈皮(ADR=0.72509600)。结论本研究基于POMDP优化了UA的治疗方案,可作为进一步规范和制定中西医结合治疗UA方案的参考。 展开更多
关键词 部分可观察马尔科夫决策过程 不稳定心绞痛 治疗方案优化
在线阅读 下载PDF
部分可观察马尔科夫决策过程优化不稳定型心绞痛中西医结合临床治疗方案的建模方法与验证研究 被引量:13
8
作者 冯妍 冯奇 +3 位作者 王以新 邱禹 周雪忠 徐浩 《中国全科医学》 CAS 北大核心 2020年第17期2181-2185,共5页
背景部分可观察马尔科夫决策过程(POMDP)是一种解决序列决策问题的数学算法,在医学领域中常应用于复杂治疗方案的动态优化。其在不稳定型心绞痛(UA)中西医结合临床治疗方案优化中的应用已进行了初步尝试。目的详细描述POMDP在UA中西医... 背景部分可观察马尔科夫决策过程(POMDP)是一种解决序列决策问题的数学算法,在医学领域中常应用于复杂治疗方案的动态优化。其在不稳定型心绞痛(UA)中西医结合临床治疗方案优化中的应用已进行了初步尝试。目的详细描述POMDP在UA中西医结合临床治疗方案优化过程中的建模方法并对模型的可靠性做出初步验证。方法收集中国中医科学院西苑医院、中国中医科学院广安门医院、中日友好医院、北京市中医院、通州区中医院、东直门医院、怀柔中医医院、北京大学人民医院2008-2010年2212例UA患者结构化住院病历111060条记录。将UA证候要素类型为气虚、血瘀的患者随机分为测试组732例和验证组732例,对测试组患者应用POMDP得出一组最优治疗方案的核心处方,在验证组患者中筛选符合方案的患者(作为优化组),与不符合方案的患者(作为对照组)进行血瘀证积分、远期终点事件(主要终点事件包括心血管死亡、非致命性心肌梗死、血运重建术,次要终点事件包括脑卒中、因急性冠脉综合征再住院、心功能不全、其他血栓并发症)发生情况的比较,验证方案的临床疗效。结果气虚优化组(n=152)、血瘀优化组(n=127)患者血瘀证积分降分分别为(5.29±2.64)、(4.87±3.04)分,均高于对照组,差异有统计学意义(P<0.05)。气虚优化组、血瘀优化组远期终点事件发生率分别为16.4%(25/152)、12.6%(16/127),与对照组比较,差异无统计学意义(P>0.05)。结论POMDP可以实现UA中西医结合临床治疗方案的优化,模型经验证较为稳定可靠,可尝试为其他疾病临床方案的制定提供更为细化、深入的优化方案。 展开更多
关键词 心绞痛 不稳定型 冠心病 部分可观察马尔科夫决策过程 建模 验证
在线阅读 下载PDF
CPSM:一种增强IP网络生存性的客户端主动服务漂移模型 被引量:10
9
作者 赵二虎 阳小龙 +1 位作者 彭云峰 隆克平 《电子学报》 EI CAS CSCD 北大核心 2010年第9期2134-2139,共6页
本文在注重提高IP网络服务可生存性的同时,也兼顾了服务可区分性的要求,提出了一种基于客户端的主动服务漂移模型,即CPSM,Client-side Proactive Service Migration model.该模型把服务漂移抽象为一个部分可观测马尔可夫决策过程,用以... 本文在注重提高IP网络服务可生存性的同时,也兼顾了服务可区分性的要求,提出了一种基于客户端的主动服务漂移模型,即CPSM,Client-side Proactive Service Migration model.该模型把服务漂移抽象为一个部分可观测马尔可夫决策过程,用以增强服务漂移对动态不确定性网络环境的自适应能力.在信息预报和信任机制的基础上,通过对网络状态的不断观测和分析,CPSM模型可以计算出使客户获益最高的服务漂移策略. 展开更多
关键词 服务可生存性 服务漂移 部分可观测马尔可夫决策过程 信息预报 信任机制
在线阅读 下载PDF
策略梯度强化学习中的最优回报基线 被引量:6
10
作者 王学宁 徐昕 +1 位作者 吴涛 贺汉根 《计算机学报》 EI CSCD 北大核心 2005年第6期1021-1026,共6页
尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回... 尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回报基线,以改进策略梯度算法的学习性能.文中证明了在Istate GPOMDP算法中引入回报基线,不会改变梯度估计的期望值,并且给出了使方差最小的最优回报基线.实验结果表明,和已有算法相比,该文提出的算法通过减小梯度估计的方差,提高了学习效率,加快了学习过程的收敛. 展开更多
关键词 强化学习 策略梯度 部分可观测马氏决策过程 回报基线
在线阅读 下载PDF
预测行人运动的服务机器人POMDP导航 被引量:5
11
作者 钱堃 马旭东 +1 位作者 戴先中 房芳 《机器人》 EI CSCD 北大核心 2010年第1期18-24,33,共8页
为提高室内动态环境下服务机器人对行人的自然避让能力,对人的运动轨迹模式进行建模,在此基础上引入了将行人运动长、短期预测结合起来的方法.为适应传感器噪声及网络延迟等因素所造成的感知—控制回路中的多源不确定性,将人与机器人的... 为提高室内动态环境下服务机器人对行人的自然避让能力,对人的运动轨迹模式进行建模,在此基础上引入了将行人运动长、短期预测结合起来的方法.为适应传感器噪声及网络延迟等因素所造成的感知—控制回路中的多源不确定性,将人与机器人的相对位置关系建模为部分可观的马尔可夫状态.采用部分可观的马尔可夫决策过程(POMDP)进行多源不确定性下的概率决策,协调控制机器人全局路径规划、反应式运动及速度控制等行为模块.实验结果验证,它能够实现提前避碰的安全导航,因避免反复的曲折与徘徊运动而提高了机器人导航效率. 展开更多
关键词 预测导航 运动估计 不确定性 POMDP
在线阅读 下载PDF
基于POMDP的信道感知接入算法 被引量:2
12
作者 郭文慧 王亚林 韩迎鸽 《计算机工程与应用》 CSCD 2014年第5期203-207,共5页
在认知无线电中,为了最大化次用户的吞吐量,同时对主用户的干扰低于预定值,提出一种基于POMDP的信道感知接入算法。次用户将主用户信道在时间轴上细分成等间隔的时隙,在每个时隙开始时,次用户从频谱感知、以较高的功率接入信道和以较低... 在认知无线电中,为了最大化次用户的吞吐量,同时对主用户的干扰低于预定值,提出一种基于POMDP的信道感知接入算法。次用户将主用户信道在时间轴上细分成等间隔的时隙,在每个时隙开始时,次用户从频谱感知、以较高的功率接入信道和以较低的功率接入信道三种可选策略中选择最优的策略。将次用户的选择过程建模成一个POMDP问题,并采用一些相应的最优策略求解。计算机仿真结果验证了算法的有效性。 展开更多
关键词 认知无线电 频谱感知 吞吐量 半马尔科夫链 partially observable markov Decision process(POMDP)
在线阅读 下载PDF
部分可观测马尔可夫决策过程算法综述 被引量:10
13
作者 桂林 武小悦 《系统工程与电子技术》 EI CSCD 北大核心 2008年第6期1058-1064,共7页
部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础... 部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础。介绍了POMDP模型后,对离散时间、有限状态集的POMDP精确算法和近似算法进行了综述,分析了造成POMDP难以求解的主要原因,提出了进一步的研究方向。 展开更多
关键词 部分可观测马尔可夫决策过程 算法 综述
在线阅读 下载PDF
部分可观测信息条件下系统最佳检修策略分析 被引量:4
14
作者 尚永爽 许爱强 +2 位作者 李文海 王怡苹 盛沛 《系统工程与电子技术》 EI CSCD 北大核心 2012年第4期749-753,共5页
针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故... 针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故障率和可靠度函数,不仅考虑系统的工作时间,也考虑系统的退化状态。最后,以系统长期运行的最小平均费用率为目标,得到最佳的检测周期和最优的更换策略。实例研究表明,该方法可为保障人员提供科学的维修决策依据。 展开更多
关键词 视情维修 维修决策 部分可观测马尔可夫决策过程 隐马尔可夫模型 比例故障率模型 退化系统
在线阅读 下载PDF
室内环境下基于边际约束的快速路径自主探索算法 被引量:4
15
作者 徐晓苏 梁紫依 +1 位作者 杨博 王迪 《中国惯性技术学报》 EI CSCD 北大核心 2019年第4期474-480,共7页
为了提高移动机器人在室内未知环境的自主探索能力,实现移动机器人在探索目标点之间的安全、快速移动,提出一种基于边际约束的快速路径自主探索算法。首先,将机器人自主探索问题描述为部分可观测马尔可夫决策过程模型。之后,在传统的快... 为了提高移动机器人在室内未知环境的自主探索能力,实现移动机器人在探索目标点之间的安全、快速移动,提出一种基于边际约束的快速路径自主探索算法。首先,将机器人自主探索问题描述为部分可观测马尔可夫决策过程模型。之后,在传统的快速扩展随机树(RRT)算法基础上,将随机树的生长空间划分为边际四象限空间,结合启发式评估函数的评价。该算法加快了移动机器人在探索目标点之间的移动速度,同时减少了随机树的节点,降低了对内存空间的占用。通过Matlab仿真实验,在实验设定的仿真环境中,该算法比传统RRT算法在时间上缩短约了75%,节点数量减少了约80%,并在机器人操作系统的仿真实验中验证了算法的实用性。 展开更多
关键词 移动机器人 自主探索 部分可观测马尔可夫决策过程 快速扩展随机树 边际约束
在线阅读 下载PDF
异构密集网络下基于POMDP负载感知的负载均衡算法研究 被引量:4
16
作者 唐伦 梁荣 +1 位作者 张亚 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2017年第9期2134-2140,共7页
针对异构密集网络场景中业务不确定性而引起的网络负载不均衡,该文提出一种基于部分可测马尔科夫决策过程(POMDP)负载感知的负载均衡方法。该方法首先通过对系统用户在感知周期内数据包传输数量进行观察,预测出下一周期系统可能出现的... 针对异构密集网络场景中业务不确定性而引起的网络负载不均衡,该文提出一种基于部分可测马尔科夫决策过程(POMDP)负载感知的负载均衡方法。该方法首先通过对系统用户在感知周期内数据包传输数量进行观察,预测出下一周期系统可能出现的负载状态。其次根据负载感知结果动态调整小区范围扩展偏置值(DCRE),以达到优化系统整体负载均衡性的目的。最后采用启发式算法近似求解,能够快速得到次优解。仿真结果表明,该方案能在异构密集网络下提高系统负载均衡性,同时提升了系统吞吐量与系统资源利用率。 展开更多
关键词 异构密集网络 负载均衡 小区范围扩展 部分可测马尔科夫决策过程
在线阅读 下载PDF
面向跟踪任务需求的主动传感器调度方法 被引量:7
17
作者 乔成林 单甘霖 +1 位作者 段修生 刘欣怡 《系统工程与电子技术》 EI CSCD 北大核心 2017年第11期2515-2521,共7页
以多传感器多目标跟踪为背景,针对跟踪任务需求中辐射风险控制问题,提出一种面向跟踪任务需求的主动传感器调度方法。该方法首先结合不敏卡尔曼滤波,给出了仅考虑跟踪任务需求的传感器调度策略;然后建立基于部分可观马尔可夫决策过程的... 以多传感器多目标跟踪为背景,针对跟踪任务需求中辐射风险控制问题,提出一种面向跟踪任务需求的主动传感器调度方法。该方法首先结合不敏卡尔曼滤波,给出了仅考虑跟踪任务需求的传感器调度策略;然后建立基于部分可观马尔可夫决策过程的辐射模型,并采用隐马尔可夫模型滤波器动态更新传感器辐射;最后考虑跟踪任务需求和传感器约束,将辐射风险控制下传感器调度问题转化为非线性约束下寻优问题。仿真实验结果验证了所提方法有效性。 展开更多
关键词 传感器调度 跟踪任务需求 部分可观马尔可夫决策过程 辐射风险
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的机电装备动态可靠性评价方法 被引量:4
18
作者 张红旗 邵晓东 胡祥涛 《中国机械工程》 EI CAS CSCD 北大核心 2016年第18期2482-2486,2493,共6页
针对机电装备运行维护问题,提出了基于部分可观察马尔可夫决策过程(POMDP)理论的动态可靠性评价方法。该方法将可靠性动态演变看成POMDP问题,通过不完全观测到的设备运行信息(如噪声、温度、压力等),对可靠性状态进行估计,同时分析不同... 针对机电装备运行维护问题,提出了基于部分可观察马尔可夫决策过程(POMDP)理论的动态可靠性评价方法。该方法将可靠性动态演变看成POMDP问题,通过不完全观测到的设备运行信息(如噪声、温度、压力等),对可靠性状态进行估计,同时分析不同的维修行为对可靠性水平的影响规律,构建了基于状态转移的动态可靠性评价模型。然后,提出了以最小化维修成本费用和潜在故障危害为目标的维护策略制定方法,并通过案例分析验证了该方法的有效性,实现了机电装备动态可靠性的有效评价与维护策略的科学制订。 展开更多
关键词 可靠性评价 维护策略 POMDP 机电装备
在线阅读 下载PDF
不确定感知的自适应云计算服务组合 被引量:7
19
作者 任丽芳 王文剑 许行 《计算机研究与发展》 EI CSCD 北大核心 2016年第12期2867-2881,共15页
云计算服务组合是从众多分布在不同云计算平台上的远程服务中选择合适的组件服务来构建可伸缩的松耦合的增值应用.传统的服务组合方法通常将服务选择与服务组合分阶段进行,由于云计算环境的动态性和服务自身演化的随机性,不能保证选择... 云计算服务组合是从众多分布在不同云计算平台上的远程服务中选择合适的组件服务来构建可伸缩的松耦合的增值应用.传统的服务组合方法通常将服务选择与服务组合分阶段进行,由于云计算环境的动态性和服务自身演化的随机性,不能保证选择阶段性能最优的服务在组合服务执行阶段依然是最优的.考虑到云计算环境服务组合的动态性和随机性,建立基于部分可观测Markov决策过程(partially observable Markov decision process,POMDP)的服务组合模型SC_POMDP(service composition based on POMDP),并设计用于模型求解的Q学习算法.SC_POMDP模型在组合服务运行中动态地进行服务质量(quality of service,QoS)最优的组件服务选择,且认为组合服务运行的环境状态是不确定的,同时SC_POMDP考虑了组件服务间的兼容性,可保证服务组合对实际情境的适应性.仿真实验表明,所提出的方法能成功地解决不同规模的服务组合问题,在出现不同比率的服务失效时,SC_POMDP仍然能动态地选择可用的最优组件服务,保证服务组合能成功地执行.与已有方法相比,SC_POMDP方法所选的服务有更优的响应时间和吞吐量,表明SC_POMDP可有效地提高服务组合的自适应性. 展开更多
关键词 自适应服务组合 云计算环境 不确定感知 部分可观测M a r k o v决策过程 Q 学习算法 服务质量
在线阅读 下载PDF
状态不完全可观条件下设备检修策略研究 被引量:3
20
作者 刘繁茂 朱海平 +1 位作者 邵新宇 高贵兵 《计算机集成制造系统》 EI CSCD 北大核心 2009年第8期1628-1632,1663,共6页
为了诊断状态不完全可观条件下的设备状况,介绍了部分可观察的马尔可夫决策过程的基本原理和Perseus近似算法的基本流程。给出了基于设备加工次品率和某些核心组件振动信号诊断信息的设备状态评估方法。在基于设备状态的视情维修模式下... 为了诊断状态不完全可观条件下的设备状况,介绍了部分可观察的马尔可夫决策过程的基本原理和Perseus近似算法的基本流程。给出了基于设备加工次品率和某些核心组件振动信号诊断信息的设备状态评估方法。在基于设备状态的视情维修模式下,考虑了检测手段的局限性和检测结果的不确定性,并以某轿车发动机缸体生产线上的一台加工中心为例,建立了以最小化折扣费用为目标的设备检测维修的部分可观察马尔可夫决策过程模型。最后应用Perseus近似算法对模型进行了求解,得到了有限区间条件下的近似最优检测、维修策略和近似最优的折扣费用值。 展开更多
关键词 部分可观察马尔可夫决策过程模型 检测维修策略 视情维修 Perseus算法
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部