随着网络用户业务需求的增长,如何实现网络切片动态和准确的资源分配是当下网络必须解决的问题。考虑传统无模型强化学习方法需要较长的模型训练时间,提出了一种基于OS-MBRL(model based RL supported by online SVM)的网络资源动态分...随着网络用户业务需求的增长,如何实现网络切片动态和准确的资源分配是当下网络必须解决的问题。考虑传统无模型强化学习方法需要较长的模型训练时间,提出了一种基于OS-MBRL(model based RL supported by online SVM)的网络资源动态分配方法。该方法利用在线支持向量机算法构建了一个系统模型,保证在分配较少资源的情况下产生较低的服务等级协议(service level agreement,SLA)违规次数。仿真实验结果表明,与归一化优势函数(normalized advantage function,NAF)算法、深度Q网络(deep Q-network,DQN)算法和双延迟深度确定性策略梯度(twin delayed deep deterministic dolicy gradient,TD3)算法相比,该方法能够最高减少80%的SLA违规次数,同时降低9%的资源分配。展开更多