期刊文献+
共找到53篇文章
< 1 2 3 >
每页显示 20 50 100
基于概率主题模型的软件开发数据库隐私数据泄露识别方法研究
1
作者 于平 《河北软件职业技术学院学报》 2024年第2期19-23,共5页
为了提升软件开发数据库的隐私数据安全性,提出基于概率主题模型的软件开发数据库隐私数据泄露识别方法。挖掘“主题-词”与“主题-文档”之间的概率分布,建立概率主题模型,通过该模型将数据转化为恶意代码并提取特征;同时结合概率检测... 为了提升软件开发数据库的隐私数据安全性,提出基于概率主题模型的软件开发数据库隐私数据泄露识别方法。挖掘“主题-词”与“主题-文档”之间的概率分布,建立概率主题模型,通过该模型将数据转化为恶意代码并提取特征;同时结合概率检测算法与指纹对比判断恶意代码配置文件是否为敏感文件,将敏感恶意代码配置文件主题上的概率均值作为确定隐私数据泄漏的指标,实现隐私数据泄露识别。实验结果表明,该方法可100%识别软件开发数据库的隐私数据是否泄漏,而且针对不同欺骗率和失真率的网络攻击导致的软件开发数据库的隐私数据泄露,识别准确率依旧在98%以上,泄露识别优势显著。 展开更多
关键词 概率主题模型 软件开发数据库 数据泄露 恶意代码 敏感文件 识别方法
在线阅读 下载PDF
一种基于概率主题模型的命名实体链接方法 被引量:32
2
作者 怀宝兴 宝腾飞 +1 位作者 祝恒书 刘淇 《软件学报》 EI CSCD 北大核心 2014年第9期2076-2087,共12页
命名实体链接(named entity linking,简称NEL)是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等.该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力.然而,实体数... 命名实体链接(named entity linking,简称NEL)是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等.该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力.然而,实体数量的激增给实体消歧等带来了巨大挑战,使得当前的命名实体链接技术越来越难以满足人们对链接准确率的要求.考虑到文档中的词和实体往往具有不同的语义主题(如"苹果"既能表示水果又可以是某电子品牌),而同一文档中的词与实体应当具有相似的主题,因此提出在语义层面对文档进行建模和实体消歧的思想.基于此设计一种完整的、基于概率主题模型的命名实体链接方法.首先,利用维基百科(Wikipedia)构建知识库;然后,利用概率主题模型将词和命名实体映射到同一个主题空间,并根据实体在主题空间中的位置向量,把给定文本中的命名实体链接到知识库中一个无歧义的命名实体;最后,在真实的数据集上进行大量实验,并与标准方法进行对比.实验结果表明:所提出的框架能够较好地解决了实体歧义问题,取得了更高的实体链接准确度. 展开更多
关键词 命名实体链接 概率主题模型 维基百科
在线阅读 下载PDF
改进Corr-LDA的图像标注概率主题模型 被引量:4
3
作者 曹洁 罗菊香 李晓旭 《小型微型计算机系统》 CSCD 北大核心 2017年第3期615-619,共5页
对标有文本词的图像数据进行调研,发现真实图像中被标注的事物往往占整个画面的部分较大,而现有的图像标注工作没有考虑这一信息,本文基于此,在Corr-LDA的基础上提出一种文本主题选择是依照图像主题分布的图像标注概率主题模型.同时,为... 对标有文本词的图像数据进行调研,发现真实图像中被标注的事物往往占整个画面的部分较大,而现有的图像标注工作没有考虑这一信息,本文基于此,在Corr-LDA的基础上提出一种文本主题选择是依照图像主题分布的图像标注概率主题模型.同时,为该模型推导了一个基于变分EM的参数估计算法,并给出使用该模型标注图像的方法.在Label Me和UIUC-Sport两个真实数据集上验证了提出模型的标注性能要高于其它相比较模型. 展开更多
关键词 图像标注 概率主题模型 变分EM Corr-LDA模型
在线阅读 下载PDF
文本分类中基于概率主题模型的噪声处理方法 被引量:9
4
作者 林洋港 陈恩红 《计算机工程与科学》 CSCD 北大核心 2010年第7期89-92,119,共5页
训练集中文本质量的好坏直接决定着文本分类的结果。实际应用中训练集的构建不可避免地会产生噪声样本,从而影响文本分类方法的实际应用效果。为此,针对文本分类中的噪声问题,本文提出一种基于概率主题模型的噪声处理方法,首先对训练集... 训练集中文本质量的好坏直接决定着文本分类的结果。实际应用中训练集的构建不可避免地会产生噪声样本,从而影响文本分类方法的实际应用效果。为此,针对文本分类中的噪声问题,本文提出一种基于概率主题模型的噪声处理方法,首先对训练集中的每个样本计算其类别熵,根据类别熵对噪声样本进行过滤;然后利用主题模型进行数据平滑,进一步减弱噪声样本的影响。这种方法不但能够减弱噪声样本对分类结果的影响,同时还保持了训练集的原有规模。在真实数据上的实验表明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍能保持较好的分类结果。 展开更多
关键词 噪声数据 文本分类 概率主题模型 类别熵
在线阅读 下载PDF
基于概率主题模型的京津冀协同发展研究主题演化分析 被引量:8
5
作者 赵杰 李海峰 李纯果 《科学技术与工程》 北大核心 2019年第36期225-234,共10页
京津冀协同发展是当前各学科领域共同关注的热点话题。为深入了解京津冀协同发展话题的研究趋势,以2009~2019年中国知网收录的14235篇与京津冀协同发展相关的期刊论文为研究对象,采用概率主题模型方法,提出以困惑度、主题平均相似度为... 京津冀协同发展是当前各学科领域共同关注的热点话题。为深入了解京津冀协同发展话题的研究趋势,以2009~2019年中国知网收录的14235篇与京津冀协同发展相关的期刊论文为研究对象,采用概率主题模型方法,提出以困惑度、主题平均相似度为指标确定最优主题数,结合文献发表时间挖掘期刊论文潜在主题,从主题强度和主题相似度等多个角度分析主题演化趋势。通过数据分析,挖掘10个潜在主题,生成主题强度年度变化趋势,构建主题内容演化路径,分析主题演化规律。以期为深刻认识京津冀协同发展和科学决策提供理论依据。 展开更多
关键词 京津冀协同发展 概率主题模型 主题提取 主题演化
在线阅读 下载PDF
基于概率主题模型的文献知识挖掘 被引量:26
6
作者 王萍 《情报学报》 CSSCI 北大核心 2011年第6期583-590,共8页
对海量的科技文献资源进行知识挖掘能够发现大量有价值的、潜在的知识,有效地提高文献信息的可用性。作者前期研究验证了使用LDA主题模型进行文献知识挖掘的可行性。本文提出了一种新的概率主题模型:Topic-Author模型,该模型对文献的... 对海量的科技文献资源进行知识挖掘能够发现大量有价值的、潜在的知识,有效地提高文献信息的可用性。作者前期研究验证了使用LDA主题模型进行文献知识挖掘的可行性。本文提出了一种新的概率主题模型:Topic-Author模型,该模型对文献的文本信息和作者信息进行联合建模,在分析文献主题同时,发现相关主题方向的研究者分布。基于Topic-Author模型,提出了多维度文献知识挖掘的方法,包括主题挖掘,专家发现,文献标注,重要文献挖掘,文献相似度分析,研究趋势分析和主题关系挖掘。基于教育技术学文献数据集,进行了实验研究。 展开更多
关键词 概率主题模型 Topic-Author模型 文献 文献知识挖掘
在线阅读 下载PDF
一种基于概率主题模型的恶意代码特征提取方法 被引量:14
7
作者 刘亚姝 王志海 +1 位作者 侯跃然 严寒冰 《计算机研究与发展》 EI CSCD 北大核心 2019年第11期2339-2348,共10页
在当前复杂网络环境下,恶意代码通过各种方式快速传播,入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络和互联网用户造成了严重的安全威胁.传统检测方法难以检测未知恶意代码,而恶意代码变体的多样性和庞大数量也对未知恶意... 在当前复杂网络环境下,恶意代码通过各种方式快速传播,入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络和互联网用户造成了严重的安全威胁.传统检测方法难以检测未知恶意代码,而恶意代码变体的多样性和庞大数量也对未知恶意代码检测构成了巨大挑战.提出了一种无监督的恶意代码识别方法,通过分析反汇编PE文件给出汇编指令标准化规则,结合潜在狄立克雷分布(latent Dirichlet allocation,LDA)获得汇编指令中潜在的“文档主题”、“主题词”的分布.再以“主题分布”构造恶意样本特征,产生一个全新的恶意代码检测框架.结合“困惑度”和变化的步长给出了最优“主题”数目的快速评价和自动确定方法,解决了LDA模型中主题数目需要预先指定的问题.同时解析了“文档主题”、“主题词”聚集结果的语义可解释性,说明了该方法获得的样本特征具有潜在的语义.实验结果表明:与其他方法相比该方法具有相当的或更好的恶意代码鉴别能力,同时能够准确地识别恶意代码的新变体. 展开更多
关键词 恶意代码检测 狄立克雷分布 概率主题模型 困惑度 Gibbs
在线阅读 下载PDF
基于概率主题模型的景点知识挖掘及其可视化 被引量:2
8
作者 徐洁 范玉顺 白冰 《计算机应用》 CSCD 北大核心 2016年第8期2103-2108,共6页
针对旅游文本噪声多、景点多且展示不直观的问题,提出一种基于概率主题模型的景点-主题模型。模型假设同一篇文档涉及多个具有相关关系的景点,引入"全局景点"过滤噪声语义,并利用Gibbs采样算法估计最大似然函数的参数,获取目... 针对旅游文本噪声多、景点多且展示不直观的问题,提出一种基于概率主题模型的景点-主题模型。模型假设同一篇文档涉及多个具有相关关系的景点,引入"全局景点"过滤噪声语义,并利用Gibbs采样算法估计最大似然函数的参数,获取目的地景点的主题分布。实验通过对景点主题特征进行聚类,评估聚类效果从而间接评价模型训练效果,并定性分析"全局景点"对模型的作用。实验结果表明,该模型对旅游文本的建模效果优于基准算法TF-IDF与隐含狄利克雷分布(LDA),且"全局景点"的引入对建模效果有明显的改善作用。最后通过景点关联图的方式对实验结果进行可视化展示。 展开更多
关键词 概率主题模型 旅游文本 噪声 GIBBS采样 可视化
在线阅读 下载PDF
基于协同过滤与概率主题模型的大学生行为模式挖掘研究
9
作者 刘涛 《现代信息科技》 2023年第24期45-48,共4页
大学生个体多样性的增强使得高校的教育管理面临前所未有的挑战。在教育大数据环境下,如何利用数据挖掘技术从海量校园行为数据中挖掘出有价值的信息变得尤为重要。针对校园行为数据存在稀疏性的问题,提出一种基于协同过滤与概率主题模... 大学生个体多样性的增强使得高校的教育管理面临前所未有的挑战。在教育大数据环境下,如何利用数据挖掘技术从海量校园行为数据中挖掘出有价值的信息变得尤为重要。针对校园行为数据存在稀疏性的问题,提出一种基于协同过滤与概率主题模型的大学生行为模式挖掘方法;采用Hawkes过程模拟产生事件并使用自定义指标评估模型性能,结果表明模型能有效挖掘出大学生行为模式。最后从同伴数量与类别选择的角度分析了大学生行为模式。 展开更多
关键词 协同过滤 概率主题模型 校园行为 行为模式 Hawkes过程
在线阅读 下载PDF
利用概率主题模型的遥感影像半监督分类 被引量:2
10
作者 易文斌 冒亚明 慎利 《计算机工程与应用》 CSCD 2013年第10期1-4,31,共5页
土地覆盖是自然环境与人类活动相互作用的中心,而土地覆盖信息主要是通过遥感影像分类来获取,因此影像分类是遥感影像分析的最基本问题之一。在参考基于概率主题模型的高分辨率遥感影像聚类分析的基础上,通过半监督学习最典型的生成模... 土地覆盖是自然环境与人类活动相互作用的中心,而土地覆盖信息主要是通过遥感影像分类来获取,因此影像分类是遥感影像分析的最基本问题之一。在参考基于概率主题模型的高分辨率遥感影像聚类分析的基础上,通过半监督学习最典型的生成模型方法引出了基于概率主题模型的半监督分类(SS-LDA)算法。借鉴SS-LDA模型在文本识别应用的流程,构建了基于SS-LDA算法的高分辨率遥感影像分类的基本流程。通过实验证明,相对于传统的非监督分类与监督分类算法,SS-LDA算法能够获取较高精度的影像分类结果。 展开更多
关键词 概率主题模型 高分辨率影像 半监督模型 影像分类
在线阅读 下载PDF
基于PAM概率主题模型的赌博网站检测方法 被引量:4
11
作者 李国静 尹天阳 张兴睿 《计算机应用与软件》 北大核心 2021年第9期167-172,共6页
鉴于传统方法在赌博网站检测上时效性低、准确度低,提出基于PAM概率主题模型的赌博网站检测方法。抽取网站及其关联网页的文本内容,并参考网站的结构化信息给不同的文本内容赋予不同的权重;利用PAM模型对网页文本信息进行主题挖掘,分析... 鉴于传统方法在赌博网站检测上时效性低、准确度低,提出基于PAM概率主题模型的赌博网站检测方法。抽取网站及其关联网页的文本内容,并参考网站的结构化信息给不同的文本内容赋予不同的权重;利用PAM模型对网页文本信息进行主题挖掘,分析其是否大概率倾向于“赌博”主题;综合计算所抽取的各个网页的主题信息,判断该网站是否属于赌博网站,从而实现对赌博网站的有效检测。通过实验分析,该方法在赌博网站检测上的准确度达到72.3%。 展开更多
关键词 概率主题模型 PAM 赌博网络检测 网络安全
在线阅读 下载PDF
一种具有降噪能力的概率主题模型
12
作者 李晶 秦永彬 黄瑞章 《计算机与数字工程》 2017年第2期367-372,共6页
大数据时代的到来使得文本数据的数据量暴增,因此准确而高效地识别和分析文本数据的潜在结构变得越来越重要。要从海量的数据中挖掘模式和知识,需要借助于强大的计算工具,所以机器学习科学家提出了概率主题模型。当前,以隐含狄利克雷分... 大数据时代的到来使得文本数据的数据量暴增,因此准确而高效地识别和分析文本数据的潜在结构变得越来越重要。要从海量的数据中挖掘模式和知识,需要借助于强大的计算工具,所以机器学习科学家提出了概率主题模型。当前,以隐含狄利克雷分布(LDA)模型为代表的经典概率主题模型已经被广泛地应用到数据挖掘的各个方面。由于LDA模型对区分相似主题的能力非常差,影响了LDA的实际应用性能,为解决这一重要问题,论文基于LDA模型提出了一种名为NRLDA的新模型。考虑到相似主题的文本中存在大量的对区分不同主题没有贡献的噪音词语,在NRLDA中引入了相关变量来区分有用词和噪音词,使噪音词从一个噪音主题的词分布中产生,而有用词从多个特征主题的词分布中产生,从而削弱噪音词所带来的不良影响。此外,我们还使用吉布斯抽样方法对NRLDA的参数进行了推断,这些参数对分析文本数据中潜藏的结构有至关重要的作用。实验结果表明我们的NRLDA模型有较强的区分相似主题的能力,这同时也验证了我们建模思想的正确性。 展开更多
关键词 概率主题模型 隐含狄利克雷分布 吉布斯抽样 降噪
在线阅读 下载PDF
概率主题模型在复杂视频监控场景中的应用
13
作者 樊亚文 周全 朱卫平 《电视技术》 2018年第2期94-100,120,共8页
视频监控是计算机视觉研究最热门的应用领域之一,其中复杂监控场景的行为分析是一项基本任务。复杂监控场景是指运动目标多且密度高的公共场所,这些场所包含多种并发的行为,且易发生群体性事件如果不能及时处理,会产生严重的影响。概率... 视频监控是计算机视觉研究最热门的应用领域之一,其中复杂监控场景的行为分析是一项基本任务。复杂监控场景是指运动目标多且密度高的公共场所,这些场所包含多种并发的行为,且易发生群体性事件如果不能及时处理,会产生严重的影响。概率主题模型基于词袋表示方法,根据单词的共生来捕捉行为,对复杂监控场景提取的视频特征中不可避免的噪声表现出优越的鲁棒性。因此近年来广泛应用于此类场景的行为分析。本研究对其中最基本的两类主题模型Latent Dirichlet Allocation(LDA)和Hierarchical Dirichlet Processes(HDP)从理论和实验两方面进行分析对比,为以后的研究中模型选取提供依据。 展开更多
关键词 视频监控 行为分析 概率主题模型 LATENT DIRICHLET Allocation(LDA) HIERARCHICAL DIRICHLET Processes(HDP)
在线阅读 下载PDF
基于主题概率分布模型的个性化信息推荐系统研究
14
作者 豆志磊 金洁洁 《河南科技》 2024年第15期12-16,共5页
【目的】传统基于相似度计算的个性化信息推荐系统因算力要求过高、推荐时滞过长等问题,致使其无法在中小型新闻图情领域得到广泛的普及。为了帮助中小型新闻图情机构以较低的成本开展个性化信息的精准推荐服务,构建了一套基于主题概率... 【目的】传统基于相似度计算的个性化信息推荐系统因算力要求过高、推荐时滞过长等问题,致使其无法在中小型新闻图情领域得到广泛的普及。为了帮助中小型新闻图情机构以较低的成本开展个性化信息的精准推荐服务,构建了一套基于主题概率分布模型的个性化信息推荐系统。【方法】通过数据采集技术实现原始数据语料的采集;通过LDA模型训练实现原始文本信息的分类;通过将用户信息代入LDA模型训练获取用户主题画像;将用户主题画像与文本信息分类相结合实现个性化信息推荐。【结果】经试验验证,该系统推荐时效强,可达毫秒级。通过与用户阅读记录进行比较,该系统的推荐结果均符合用户兴趣主题,具有较高的推荐精准度。【结论】该基于主题概率分布模型的个性化信息推荐系统,能够帮助中小型新闻图情机构以较低的成本开展个性化信息精准推荐服务,具有一定的应用价值。 展开更多
关键词 LDA主题模型 主题概率分布模型 个性化信息推荐 系统设计与实现
在线阅读 下载PDF
基于层次概率主题模型的科技文献主题发现及演化 被引量:31
15
作者 王平 《图书情报工作》 CSSCI 北大核心 2014年第22期70-77,共8页
自动挖掘科技文献主题并识别主题变化对于科研工作者及时获取相关领域的最新研究动态有着重要作用。针对科技文献主题多样、动态性强等特点,分析科技文献主题发现及演化具体方法,基于层次概率主题模型h LDA,采用Gibbs抽样来进行模型参... 自动挖掘科技文献主题并识别主题变化对于科研工作者及时获取相关领域的最新研究动态有着重要作用。针对科技文献主题多样、动态性强等特点,分析科技文献主题发现及演化具体方法,基于层次概率主题模型h LDA,采用Gibbs抽样来进行模型参数估计,并运用互信息的方法对主题词进行筛选,以提取高质量的主题词。最后,利用先/后离散分析方法研究主题随时间的演化问题。实验结果验证了主题发现及演化方法的可行性及有效性。 展开更多
关键词 主题发现 主题演化 层次概率主题模型
原文传递
基于概率主题的物品万维网资源管理机制
16
作者 李养群 《计算机应用与软件》 北大核心 2024年第8期84-91,共8页
针对物品万维网(WoT)资源管理复杂度高、效率低的问题,提出一种基于概率主题模型的WoT资源智能化管理机制。从资源描述中自动提取主题信息;利用分类算法对该主题进行分类;根据分类结果将资源发布在WoT网关构建的P2P网络中。仿真实验表明... 针对物品万维网(WoT)资源管理复杂度高、效率低的问题,提出一种基于概率主题模型的WoT资源智能化管理机制。从资源描述中自动提取主题信息;利用分类算法对该主题进行分类;根据分类结果将资源发布在WoT网关构建的P2P网络中。仿真实验表明,该方法与基于文本及语义的方法相比,具有较高的管理效率以及准确率,同时,基于相同主题的资源分布式存储也提高了应用的可用性。最后,给出一个WoT资源优化管理的实例分析。 展开更多
关键词 物品万维网 智能化资源管理 概率主题模型 资源发现 机器学习
在线阅读 下载PDF
基于概率主题模型的大数据平台隐私泄露自动检测方法 被引量:3
17
作者 符士侃 夏元轶 +1 位作者 杜钰 石廷川 《自动化与仪器仪表》 2022年第4期115-118,123,共5页
常规方法检测应用程序隐私数据流泄露时,筛选的恶意代码配置文件存在遗漏,导致数据流检测正确率较低,误报率和漏检率较高。提出基于概率主题模型的大数据平台隐私泄露自动检测方法。将主题作为词的条件概率分布,词典作为文档,构建并训... 常规方法检测应用程序隐私数据流泄露时,筛选的恶意代码配置文件存在遗漏,导致数据流检测正确率较低,误报率和漏检率较高。提出基于概率主题模型的大数据平台隐私泄露自动检测方法。将主题作为词的条件概率分布,词典作为文档,构建并训练恶意代码特征提取的概率主题模型,结合Dirichlet分布特性求解模型,并且通过概率检测算法和指纹比对算法验证恶意代码配置文件是否敏感,根据隐私数据组件泄露的半格理论,构建检测工具整体框架,进而确定敏感恶意代码配置文件应用程序的泄露数据流,实现概率主题模型的大数据平台隐私泄露自动检测。实验结果表明,设计方法提高了隐私数据泄露检测正确率,减少了误报率和漏检率。 展开更多
关键词 概率主题模型 平台网络安全 隐私数据 泄露检测 恶意代码 配置文件
原文传递
基于隐藏主题概率模型的图像结构感知SISR重建方法
18
作者 马丽红 王小娥 +1 位作者 田菁 张宇 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第4期1-9,共9页
在基于示例学习的单幅图像超分辨率(SISR)重建中,假设从低分辨率(LR)到高分辨率(HR)图像块的映射关系是一对一的,但同一LR块会与多个HR块对应,导致了LR与HR块的匹配误差.为解决HR复原块的失配问题,文中首先导出了LR块主题模式的概率模型... 在基于示例学习的单幅图像超分辨率(SISR)重建中,假设从低分辨率(LR)到高分辨率(HR)图像块的映射关系是一对一的,但同一LR块会与多个HR块对应,导致了LR与HR块的匹配误差.为解决HR复原块的失配问题,文中首先导出了LR块主题模式的概率模型,引入信号的隐藏主题这一种新的观察信息.然后提出了一种基于块主题差异和上下文最大概率的结构感知复原机制,通过主题模式与邻域块内容的关联,形成LR块的流形描述;在重构中通过自适应主题决策树选择和节点回归矩阵映射,从相似的LR流形信号中准确区分和复原HR信号.主题模型优化实验结果表明,文中基于主题约束信息的算法比未引入隐藏主题的决策树SISR方法的峰值信噪比(PSNR)值提升了0.25 dB;在5种算法的对比实验中,相对于稀疏字典SISR方法,文中方法的PSNR值平均提升了0.92 dB,表明引入隐藏的主题信息和主题流形结构辨识是可行的. 展开更多
关键词 超分辨率重建 主题概率模型 结构感知 流形约束 节点回归映射
在线阅读 下载PDF
主题概率模型在微博主题挖掘方面的研究综述 被引量:4
19
作者 陈静 刘琰 王煦中 《信息工程大学学报》 2017年第1期103-110,共8页
近年来,微博凭借着自身的特点发展成为社会公共舆论的重要平台,对国家安全和社会发展产生了深远的影响,由此对微博文本主题提取显得格外重要。目前,文本主题挖掘的主流技术是主题概率模型。为此,首先对主题概率模型中LDA模型进行了详细... 近年来,微博凭借着自身的特点发展成为社会公共舆论的重要平台,对国家安全和社会发展产生了深远的影响,由此对微博文本主题提取显得格外重要。目前,文本主题挖掘的主流技术是主题概率模型。为此,首先对主题概率模型中LDA模型进行了详细地介绍;其次分析了微博的数据特点,从存在噪音词汇、微博文本短小以及微博的时序性等3个方面综述了主题概率模型在微博主题挖掘方面的研究;近一步又综述了利用主题模型发现基于主题的社团关系的研究;最后总结了未来主题模型在挖掘微博主题方面存在的挑战。 展开更多
关键词 微博 主题概率模型 主题 主题提取 社团发现
在线阅读 下载PDF
基于词对主题模型的中分辨率遥感影像土地利用分类 被引量:4
20
作者 邵华 李杨 +1 位作者 丁远 刘凤臣 《农业工程学报》 EI CAS CSCD 北大核心 2016年第22期259-265,共7页
利用遥感影像数据进行土地利用/覆被分类是多学科共同关注的热点问题,但传统自动分类方法仍然难以满足应用需求,以隐狄利克雷分配模型(latent dirichlet allocation,LDA)为代表的概率主题模型能够建立底层特征和高层语义之间的桥梁,近... 利用遥感影像数据进行土地利用/覆被分类是多学科共同关注的热点问题,但传统自动分类方法仍然难以满足应用需求,以隐狄利克雷分配模型(latent dirichlet allocation,LDA)为代表的概率主题模型能够建立底层特征和高层语义之间的桥梁,近年来也被引入了遥感影像分析领域,但多集中于针对高空间分辨遥感影像的分析。该文分析了一般概率主题模型在遥感影像空间分辨率降低后面临的问题,在此基础上借鉴词对主题模型(biterm topic model,BTM)对单词稀疏文档的推理能力,将其引入中空间分辨率遥感影像的分类中,并提出使用空间相邻的视觉单词对作为模型的观测数据。试验结果表明,BTM模型的分类性能优于LDA模型,并且使用空间相邻视觉单词对可以比标准BTM模型使用更少的观测数据,取得更高的分类精度。 展开更多
关键词 土地利用 遥感 模型 概率主题模型 中空间分辨率 遥感影像分类 词对主题模型
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部