期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于上下文感知的汤普森采样推荐算法研究
1
作者 郑操 《现代计算机》 2019年第7期28-30,共3页
探索和利用是推荐系统中一类非常重要问题,如何在探索和利用中找到一个平衡点是这类问题的关键,通过物品的上下文信息以及通过对用户特征不断的学习,给出一个基于上下文感知的多臂Bandit模型,利用汤普森采样对用户特征进行迭代学习的算... 探索和利用是推荐系统中一类非常重要问题,如何在探索和利用中找到一个平衡点是这类问题的关键,通过物品的上下文信息以及通过对用户特征不断的学习,给出一个基于上下文感知的多臂Bandit模型,利用汤普森采样对用户特征进行迭代学习的算法,并通过累积回报评价指标对算法模型的有效性进行评估。 展开更多
关键词 上下文感知 汤普森采样 多臂Bandit模型 推荐系统
在线阅读 下载PDF
基于探索-利用模型优化AFL变异的方法
2
作者 徐鹏 刘嘉勇 林波 《信息网络安全》 CSCD 北大核心 2019年第6期61-67,共7页
模糊测试是通过不断生成不同的输入来测试程序从而发现并识别安全漏洞,已经广泛应用于漏洞挖掘中。目前灰盒模糊测试是最流行的模糊测试策略,它将轻量级代码插桩与数据反馈驱动相结合,以生成新的程序输入。AFL(American Fuzzy Lop)是一... 模糊测试是通过不断生成不同的输入来测试程序从而发现并识别安全漏洞,已经广泛应用于漏洞挖掘中。目前灰盒模糊测试是最流行的模糊测试策略,它将轻量级代码插桩与数据反馈驱动相结合,以生成新的程序输入。AFL(American Fuzzy Lop)是一种卓越的灰盒模糊测试工具,其以高效的forkserver执行、可靠的遗传算法和多种的变异策略著称,但其变异策略主要采样随机变异,存在较大的盲目性。文章提出了一种运用强化学习的方法来优化变异的策略,以多摇臂赌博机问题为模型,记录不同变异方式产生的输入在目标程序中的执行效果,利用探索-利用算法自适应地学习变异操作结果的概率分布情况,智能地进行变异操作策略调整,提升AFL的模糊测试性能。文章选择汤普森采样为优化算法设计实现了AFL-EE模糊测试工具,并对5类常用的文件类程序进行了验证测试,实验表明该方法能自动调整变异操作策略,有效地产生覆盖率高的测试输入,方法可行、额外资源消耗较小,总体上优于AFL工具。 展开更多
关键词 AFL 多摇臂赌博机 探索-利用 汤普森采样
在线阅读 下载PDF
动态定价在线上销售模式中的研究 被引量:1
3
作者 吴锦超 顾孟迪 《上海管理科学》 2023年第5期20-25,共6页
随着传统电商行业与电商衍生行业(例如直播带货、跨境电商等)的不断发展,企业对线上销售的收入管理问题也更为重视。通过数值仿真的方式,从动态定价的角度对收入管理问题进行研究,探索如何制定定价策略使得零售商在一定的销售周期内获... 随着传统电商行业与电商衍生行业(例如直播带货、跨境电商等)的不断发展,企业对线上销售的收入管理问题也更为重视。通过数值仿真的方式,从动态定价的角度对收入管理问题进行研究,探索如何制定定价策略使得零售商在一定的销售周期内获得尽可能高的累计收入。将强化学习中的汤普森采样算法进行迁移与应用,并将仿真结果与两种常见的启发式算法进行对比。在原基础上进行预先的用户聚类,验证了所提方案对于累计收入的提升,并进行了方案的可行性分析。 展开更多
关键词 收入管理 线上销售 动态定价 汤普森采样 聚类分析
在线阅读 下载PDF
在线学习的主用户仿冒攻击策略
4
作者 盛响 王少尉 《国防科技大学学报》 EI CAS CSCD 北大核心 2020年第4期12-17,共6页
在认知无线网络中,次用户通过频谱感知来学习频谱环境,从而接入那些没有被主用户占用的频谱空隙。事实上,多种恶意攻击的存在会影响次用户频谱感知的可靠性。只有深入研究恶意攻击策略,才能确保认知无线网络的安全。基于此,研究了一种... 在认知无线网络中,次用户通过频谱感知来学习频谱环境,从而接入那些没有被主用户占用的频谱空隙。事实上,多种恶意攻击的存在会影响次用户频谱感知的可靠性。只有深入研究恶意攻击策略,才能确保认知无线网络的安全。基于此,研究了一种认知无线网络中的欺骗性干扰策略,即主用户仿冒攻击策略,该攻击策略通过在信道上传输伪造的主用户信号来降低次用户频谱感知的性能。具体来说,将攻击策略问题建模为在线学习问题,并提出基于汤普森采样的攻击策略以实现在探索不确定信道和利用高性能信道间的权衡。仿真结果表明,与现有的攻击策略相比,提出的攻击策略能更好地通过在线学习优化攻击决策以与作者互动适应非平稳的认知无线网络。 展开更多
关键词 认知无线电 在线学习 主用户仿冒攻击 频谱感知 汤普森采样
在线阅读 下载PDF
基于大数据的复杂超参数优化组合方法仿真 被引量:1
5
作者 李发陵 彭娟 《计算机仿真》 北大核心 2022年第7期332-336,共5页
针对超参数梯度目标过大,引起的搜索调优效率低问题,提出基于大数据的复杂超参数优化组合方法,来实现有效解决。使用汤普森采样法函数收集关键超参数数据,通过高斯现象计算超参数优化组合的观测向量值及期望值,求取观测数据集最优求解,... 针对超参数梯度目标过大,引起的搜索调优效率低问题,提出基于大数据的复杂超参数优化组合方法,来实现有效解决。使用汤普森采样法函数收集关键超参数数据,通过高斯现象计算超参数优化组合的观测向量值及期望值,求取观测数据集最优求解,建立初步优化组合框架,计算每一层次框架中对应超参数先、后验概率以及最大似然函数,对比推导出优化函数的状态分布规律,寻找符合条件的导数因子,作为最大优化矩阵的初始代入数值,实现超参数的最优解组合。仿真结果证明,所提组合下参数平均求解误差较低、整体优化性能表现较为优异。 展开更多
关键词 搜索调优 复杂超参数 汤普森采样 梯度分布层次 最大似然函数
在线阅读 下载PDF
基于DE-SARSA(TS)的跳频系统智能抗干扰决策算法
6
作者 袁泽 赵知劲 《杭州电子科技大学学报(自然科学版)》 2024年第1期6-13,共8页
为了提高跳频通信系统在复杂电磁环境下的抗干扰性能,提出一种基于结合汤普森采样(Thompson Sampling)、Dyna模型和期望SARSA学习(Expected Sarsa)的智能抗干扰决策算法。在期望SARSA学习中,引入Dyna模型,将模型学习与强化学习结合,提... 为了提高跳频通信系统在复杂电磁环境下的抗干扰性能,提出一种基于结合汤普森采样(Thompson Sampling)、Dyna模型和期望SARSA学习(Expected Sarsa)的智能抗干扰决策算法。在期望SARSA学习中,引入Dyna模型,将模型学习与强化学习结合,提升了算法收敛速度和稳态性能;采用汤普森采样和Tanh函数改进动作选择机制,提高了算法对环境的探索和利用;以时隙对应的干扰环境为状态,以跳频速率、信号瞬时带宽、频率序列等为动作构造状态动作空间,设计了相应的跳频系统模型和奖励函数。在高斯白噪声、窄带干扰、宽带干扰和扫频干扰并存的复杂干扰环境中的仿真结果表明,此算法兼顾了对环境的探索与利用,比对比算法有更快的收敛速度和更强的抗干扰能力。 展开更多
关键词 复杂电磁环境 跳频系统 期望SARSA学习 汤普森采样 Dyna模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部