期刊文献+
共找到83篇文章
< 1 2 5 >
每页显示 20 50 100
代码大语言模型赋能的知识图谱关键技术综述
1
作者 李紫宣 白龙 +4 位作者 任韦澄 苏淼 刘文轩 陈磊 靳小龙 《大数据》 2025年第2期19-28,共10页
传统知识图谱技术在将用自然语言表达的人类知识转化为用形式化语言表达的知识图谱再加以利用的过程中仍面临诸多挑战。近年来,代码大语言模型具备了同时理解自然语言与形式化语言并将两者进行转化的能力,有望为新一代知识图谱技术的发... 传统知识图谱技术在将用自然语言表达的人类知识转化为用形式化语言表达的知识图谱再加以利用的过程中仍面临诸多挑战。近年来,代码大语言模型具备了同时理解自然语言与形式化语言并将两者进行转化的能力,有望为新一代知识图谱技术的发展带来重要突破。因此,综述了代码大语言模型在知识图谱中的运用。首先,从知识图谱构建、推理以及问答3个方面,对代码大语言模型赋能的知识图谱关键技术进行了体系化梳理;其次,围绕上述3个方面,对现有相关技术进行了较为详细的介绍;最后,对代码大语言模型赋能的知识图谱关键技术进行了总结与展望。未来基于编程语言的知识表示有望在知识图谱上实现更加高效、自动且复杂的操作,实现知识编程。 展开更多
关键词 知识图谱 代码大语言模型 大语言模型
在线阅读 下载PDF
基于开放网络知识的信息检索与数据挖掘 被引量:97
2
作者 王元卓 贾岩涛 +2 位作者 刘大伟 靳小龙 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期456-474,共19页
网络大数据是指"人、机、物"三元世界在网络空间(cyberspace)中交互、融合所产生并在互联网上可获得的大数据.这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强.... 网络大数据是指"人、机、物"三元世界在网络空间(cyberspace)中交互、融合所产生并在互联网上可获得的大数据.这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强.网络大数据背后蕴含着丰富的、复杂关联的知识.建立面向开放网络的知识库是获取网络大数据中的丰富知识的有效手段.对当前国内外主要的开放网络库进行了比较,分析了相应的构建方法、多源知识的融合以及知识库的更新等关键技术.进一步从用户意图理解、查询扩展、语义问答、线索挖据、关系推理以及关系和属性预测等方面出发,总结了基于开放网络知识库的信息检索、数据挖掘与系统应用的研究现状和主要问题.最后,对开放网络知识库的发展趋势和面临的主要挑战进行了展望. 展开更多
关键词 网络大数据 开放网络知识 本体 信息检索 数据挖掘
在线阅读 下载PDF
在线社交网络中的新兴话题检测技术综述 被引量:5
3
作者 笱程成 杜攀 +1 位作者 刘悦 程学旗 《中文信息学报》 CSCD 北大核心 2016年第5期9-18,共10页
新兴话题检测是社交网络研究的热点问题之一。在线社交网络特别是微博的开放性,给话题的流行和爆发提供了前所未有的便利条件。新兴话题是即将流行或爆发的话题,往往伴随着重大的事件或新闻的发生,会产生重大的社会影响,如何在早期识别... 新兴话题检测是社交网络研究的热点问题之一。在线社交网络特别是微博的开放性,给话题的流行和爆发提供了前所未有的便利条件。新兴话题是即将流行或爆发的话题,往往伴随着重大的事件或新闻的发生,会产生重大的社会影响,如何在早期识别此类话题,是新兴话题检测研究的主要内容。该文回顾了近年来在新兴话题检测方面的主要进展,分析了新兴话题检测领域面临的挑战,阐述了相关的概念、方法和理论,重点从内容突发特征和信息传播模型两个方面对影响新兴话题检测的方法进行了分析和讨论,并对新兴话题检测的前景做了展望。 展开更多
关键词 新兴话题 话题检测 信息传播 社交网络
在线阅读 下载PDF
地理社会网络数据可视化分析研究综述 被引量:11
4
作者 李恒 沈华伟 +1 位作者 黄蔚 程学旗 《中文信息学报》 CSCD 北大核心 2018年第10期11-18,共8页
随着移动互联网与社会网络的深度融合,基于位置服务(Location Based Service,LBS)的社交媒体应用更加流行,成为地理社会网络(Geo-Social Networks,GSN)的研究重点。基于位置信息的社会网络(Location Based Social Network,LBSN)由于具... 随着移动互联网与社会网络的深度融合,基于位置服务(Location Based Service,LBS)的社交媒体应用更加流行,成为地理社会网络(Geo-Social Networks,GSN)的研究重点。基于位置信息的社会网络(Location Based Social Network,LBSN)由于具有时空特性,其海量数据可视化不同于传统信息可视化,必须结合其地理信息特征进行表达。该文以GSN中抽取出的海量时空数据为分析对象,从LBSN时空数据抽取、海量时空数据可视化等方面进行综述,对地理社会网络时空数据交互可视化分析技术开展研究,以期能够实现比较方便、快速、直接地从地理社会网络的海量数据中提取出有用、可靠、可知识化的综合信息,并通过信息可视化方式进行直观表达、展示与分析。 展开更多
关键词 地理社会网络 时空数据 信息可视化 大数据分析 地图学与地理信息系统
在线阅读 下载PDF
基于社交演化博弈的社交网络用户信息分享行为演化分析 被引量:8
5
作者 于建业 王元卓 +1 位作者 靳小龙 程学旗 《电子学报》 EI CAS CSCD 北大核心 2018年第1期223-229,共7页
本文基于社交演化博弈模型研究了社交网络中用户信息分享行为的合作演化.在社交演化博弈模型中,用户通过不断地模仿他关注的最成功的用户的行为策略来改进自身的短期效用,或者根据声誉调整他关注的用户来改善自身所处的声誉环境,进而改... 本文基于社交演化博弈模型研究了社交网络中用户信息分享行为的合作演化.在社交演化博弈模型中,用户通过不断地模仿他关注的最成功的用户的行为策略来改进自身的短期效用,或者根据声誉调整他关注的用户来改善自身所处的声誉环境,进而改进自身的长期声誉,而用户间信息分享所构成的群体交互则使用公共品博弈进行建模.通过对社交演化博弈模型的数值仿真,揭示了用户间关注关系更新的频率、用户对声誉的追逐程度和群体放大效应在社交网络演化中的影响.同时,本文也应用了社交演化博弈模型对新浪微博进行了分析,加深了人们对社交网络中信息分享行为的合作演化的理解. 展开更多
关键词 社交演化博弈 社交网络 公共品博弈 信息分享行为 声誉
在线阅读 下载PDF
CCF大专委2016年大数据发展趋势预测--解读和行动建议 被引量:13
6
作者 潘柱廷 程学旗 +2 位作者 袁晓如 周涛 靳小龙 《大数据》 2016年第1期105-113,共9页
1引言2015中国大数据技术大会(BDTC)于2015年12月10日在北京召开,会上中国计算机学会(CCF)大数据专家委员会(task force on big data,TFBD,以下简称大专委)发布了中国大数据技术与产业发展报告(2015),并对2016年大数据发展趋势... 1引言2015中国大数据技术大会(BDTC)于2015年12月10日在北京召开,会上中国计算机学会(CCF)大数据专家委员会(task force on big data,TFBD,以下简称大专委)发布了中国大数据技术与产业发展报告(2015),并对2016年大数据发展趋势进行了展望。自2012年10月CCF大专委成立,在每年12月的大数据技术大会上都会发布对第二年大数据发展趋势的预测。从预测2013年到预测2016年, 展开更多
关键词 CCF 中国计算机学会 第二年 发展趋势预测 可视化方法 产业发展报告 应用领域 隐私保护 开源技术 产业生态
在线阅读 下载PDF
面向中文网络百科的语义知识库构建 被引量:5
7
作者 刘剑 许洪波 +2 位作者 唐慧丰 贾岩涛 程学旗 《系统仿真学报》 CAS CSCD 北大核心 2016年第3期542-548,共7页
传统的语义知识库构建耗费了大量的人力物力,而且知识难以做到及时的更新。针对这些不足,以语义本体和超图理论为基础,提出了新的语义表达模型:动态知识网络,并且阐述了该模型的理论基础和组成要素。在模型的指导下,面向中文360百科,研... 传统的语义知识库构建耗费了大量的人力物力,而且知识难以做到及时的更新。针对这些不足,以语义本体和超图理论为基础,提出了新的语义表达模型:动态知识网络,并且阐述了该模型的理论基础和组成要素。在模型的指导下,面向中文360百科,研究了语义知识的抽取方法和存储结构,半自动构建了中文语义知识库,为面向语义的中文信息处理提供知识支持。 展开更多
关键词 中文网络百科 语义知识库 超图 本体
在线阅读 下载PDF
基于对比学习的跨模态实体链接模型
8
作者 王苑铮 孙文祥 +2 位作者 范意兴 廖华明 郭嘉丰 《计算机研究与发展》 北大核心 2025年第3期662-671,共10页
图文跨模态实体链接是对传统实体链接任务的扩展,其输入为包含实体的图像,目标是将其链接到文本模态的知识库实体上.现有模型通常采用双编码器架构,将图像、文本模态的实体分别编码为向量,利用点乘计算两者的相似度,从而链接到与图像实... 图文跨模态实体链接是对传统实体链接任务的扩展,其输入为包含实体的图像,目标是将其链接到文本模态的知识库实体上.现有模型通常采用双编码器架构,将图像、文本模态的实体分别编码为向量,利用点乘计算两者的相似度,从而链接到与图像实体相似度最高的文本实体.其训练过程通常采用基于Info NCE损失的对比学习任务,即提高一个实体某模态与自身另一模态的向量相似度,降低与其他实体另一模态的向量相似度.然而此模型忽视了图文2个模态内部表示难度的差异:图像模态中的相似实体,通常比文本模态中的相似实体更难以区分,导致外观相似的图像实体很容易链接错误.因此,提出2个新的对比学习任务来提升向量的判别能力.一个是自对比学习,用于提升图像向量之间的区分度;另一个是难负例对比学习,让文本向量更容易区分几个相似的图像向量.在开源数据集Wiki Person上进行实验,在12万规模的实体库上,相比于采用Info NCE损失的最佳基线模型,模型正确率提升了4.5个百分点. 展开更多
关键词 实体链接模型 多模态 跨模态 对比学习 视觉信息
在线阅读 下载PDF
基于卷积记忆网络的视角级微博情感分类 被引量:3
9
作者 廖祥文 谢媛媛 +3 位作者 魏晶晶 桂林 程学旗 陈国龙 《模式识别与人工智能》 EI CSCD 北大核心 2018年第3期219-229,共11页
现有记忆网络模型中的上下文词之间相互独立,未考虑词序信息对微博情感的影响.因此文中提出基于卷积记忆网络的视角级微博情感分类方法,利用记忆网络可以有效对查询词与文本之间的语义关系进行建模这一特点,将视角与上下文进行抽象处理... 现有记忆网络模型中的上下文词之间相互独立,未考虑词序信息对微博情感的影响.因此文中提出基于卷积记忆网络的视角级微博情感分类方法,利用记忆网络可以有效对查询词与文本之间的语义关系进行建模这一特点,将视角与上下文进行抽象处理.通过卷积操作对上下文进行词序拓展,并利用这一结果捕获文中不同词语在上下文中的注意力信号,用于文本的加权表示.在3个公开数据集上的实验表明,相比已有方法,文中方法的正确率和宏F1值效果更好. 展开更多
关键词 卷积记忆网络 视角级情感分类 注意力机制
在线阅读 下载PDF
道德风险条件下的最优网络安全保险契约模型研究 被引量:3
10
作者 杨云雪 王燕霞 《高技术通讯》 CAS CSCD 北大核心 2016年第8期732-738,共7页
针对信息非对称性导致网络安全保险市场运行效率下降问题,进行了网络用户道德风险条件下的最优网络安全保险契约模型研究,使用委托代理理论建立了此类网络安全保险契约分析模型并对其性质进行了讨论。证明了不存在网络用户道德风险时,... 针对信息非对称性导致网络安全保险市场运行效率下降问题,进行了网络用户道德风险条件下的最优网络安全保险契约模型研究,使用委托代理理论建立了此类网络安全保险契约分析模型并对其性质进行了讨论。证明了不存在网络用户道德风险时,最优网络安全保险契约可以实现风险分担的帕累托最优并要求完全保险,此时最优网络安全保险费等于网络安全事件造成损失的期望值;存在网络用户道德风险时,最优网络安全保险契约不能达到风险分担的帕累托最优并要求部分保险,此时最优网络安全保险费小于网络安全事件造成损失的期望值。 展开更多
关键词 网络安全保险 道德风险 保险契约 信息非对称性 帕累托最优
在线阅读 下载PDF
SCMF:一种融合多源数据的软约束矩阵分解推荐算法 被引量:2
11
作者 满彤 沈华伟 +1 位作者 黄俊铭 程学旗 《中文信息学报》 CSCD 北大核心 2017年第4期174-183,共10页
数据稀疏是推荐系统面临的主要挑战之一。近年来,多源数据融合为解决数据稀疏问题提供了新思路。然而,现有方法大多假设对象在不同数据源中具有相同的表示,这种硬约束方式无法刻画对象在不同数据源中的差异性。该文提出一种基于软约束... 数据稀疏是推荐系统面临的主要挑战之一。近年来,多源数据融合为解决数据稀疏问题提供了新思路。然而,现有方法大多假设对象在不同数据源中具有相同的表示,这种硬约束方式无法刻画对象在不同数据源中的差异性。该文提出一种基于软约束矩阵分解的推荐算法,通过约束不同数据源中对象的隐因子向量,能够同时刻画同一对象表示的共性及其在不同数据源中的差异性。在两个数据集上的实验表明,该文提出的软约束矩阵分解算法在准确率方面优于现有的单数据源推荐算法和多源数据硬约束融合推荐算法,可以有效解决推荐系统面临的数据稀疏问题。 展开更多
关键词 协同过滤 推荐系统
在线阅读 下载PDF
CCF大专委2018年大数据发展趋势预测 被引量:2
12
作者 周涛 卞超轶 +2 位作者 潘柱廷 查礼 程学旗 《大数据》 2018年第1期77-84,共8页
1引言在2017年中国大数据技术大会(BDTC)开幕式上,中国计算机学会(CCF)大数据专家委员会(以下简称大专委)如期发布了2018年大数据十大发展趋势预测,引发了业界的广泛关注和持续传播。本次大数据发展趋势预测经历了候选项征集和正... 1引言在2017年中国大数据技术大会(BDTC)开幕式上,中国计算机学会(CCF)大数据专家委员会(以下简称大专委)如期发布了2018年大数据十大发展趋势预测,引发了业界的广泛关注和持续传播。本次大数据发展趋势预测经历了候选项征集和正式投票两个环节。 展开更多
关键词 视频数据 人工智能 知识图谱 语音数据 大数据 候选项 发展趋势预测 CCF
在线阅读 下载PDF
《在线社会关系网络的挖掘与分析》专辑 被引量:1
13
作者 程学旗 沈华伟 《计算机学报》 EI CSCD 北大核心 2014年第4期I0001-I0002,共2页
近年来,以社交网络和社会媒体为代表的在线社会关系网络正深刻改变着人们制造、传播和接收信息的方式.人的互联成为信息互联的载体和信息传播的媒介,个体间的强交互性使得信息传播的网络效应越发凸显.在线社会关系网络汇聚了大量的... 近年来,以社交网络和社会媒体为代表的在线社会关系网络正深刻改变着人们制造、传播和接收信息的方式.人的互联成为信息互联的载体和信息传播的媒介,个体间的强交互性使得信息传播的网络效应越发凸显.在线社会关系网络汇聚了大量的用户关系、行为等可感知和可计算的人类社会的数字足迹,为社会计算提供了弥足珍贵的数据资源和实验环境.同时, 展开更多
关键词 社会关系 关系网络 在线 信息传播 专辑 挖掘 网络汇聚 网络效应
在线阅读 下载PDF
图卷积神经网络综述 被引量:289
14
作者 徐冰冰 岑科廷 +2 位作者 黄俊杰 沈华伟 程学旗 《计算机学报》 EI CSCD 北大核心 2020年第5期755-780,共26页
过去几年,卷积神经网络因其强大的建模能力引起广泛关注,在自然语言处理、图像识别等领域成功应用.然而,传统的卷积神经网络只能处理欧氏空间数据,而现实生活中的许多场景,如交通网络、社交网络、引用网络等,都是以图数据的形式存在.将... 过去几年,卷积神经网络因其强大的建模能力引起广泛关注,在自然语言处理、图像识别等领域成功应用.然而,传统的卷积神经网络只能处理欧氏空间数据,而现实生活中的许多场景,如交通网络、社交网络、引用网络等,都是以图数据的形式存在.将卷积神经网络迁移到图数据分析处理中的核心在于图卷积算子的构建和图池化算子的构建.本文对图卷积神经网络进行综述,首先介绍了图卷积神经网络的背景并梳理了两类经典方法——谱方法和空间方法.针对图数据上平移不变性的缺失给图卷积算子的定义带来的困难,谱方法借助卷积定理在谱域定义图卷积,而空间方法通过在节点域定义节点相关性来实现图卷积.进而,本文介绍了图卷积神经网络的最新进展,这其中包括如何利用图卷积神经网络建模图上的复杂信息,如异质连接、高阶连接等,以及如何在大规模图上实现图卷积神经网络;此外,本文介绍了图卷积神经网络的相关应用,包括推荐系统领域、交通预测领域等;最后本文对图卷积神经网络的发展趋势进行了总结和展望. 展开更多
关键词 图卷积神经网络 卷积 池化 非欧空间
在线阅读 下载PDF
基于动态异构信息网络的时序关系预测 被引量:8
15
作者 赵泽亚 贾岩涛 +2 位作者 王元卓 靳小龙 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2015年第8期1735-1741,共7页
动态异构信息网络中的时序关系预测问题近些年被广泛研究,时序关系预测旨在预测关系产生时间的同时预测关系的类型.动态异构信息网络是包含不同类型的点和边且边上带有时间信息的网络.现有的方法主要考虑了网络中拓扑结构对于关系预测... 动态异构信息网络中的时序关系预测问题近些年被广泛研究,时序关系预测旨在预测关系产生时间的同时预测关系的类型.动态异构信息网络是包含不同类型的点和边且边上带有时间信息的网络.现有的方法主要考虑了网络中拓扑结构对于关系预测的影响,而并未将时间和结构信息整合到一个统一的模型中进行研究.针对以上问题,提出了一个时间差关系路径法(time-difference-labeled path,TDLP)用于实现时序关系预测,该方法将网络中边上的时间信息融入到结构路径中从而得到更好的预测效果.在一个学术网络上的实验证明,提出的TDLP方法相比当前流行的方法具有更高预测准确率. 展开更多
关键词 时序关系预测 时间差路径 动态异构信息网络 随机游走 拓扑结构
在线阅读 下载PDF
大规模演化知识网络中的关联推理 被引量:6
16
作者 赵泽亚 贾岩涛 +2 位作者 王元卓 靳小龙 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2016年第2期492-502,共11页
网络大数据时代的到来使得知识网络中时空信息越来越丰富.现有的知识网络描述模型对知识的时空信息刻画不足.研究证明,利用网络中知识的时空信息以及相关性,能够提高网络中知识间的关联推理的准确率.针对以上问题,首先提出了一种包含时... 网络大数据时代的到来使得知识网络中时空信息越来越丰富.现有的知识网络描述模型对知识的时空信息刻画不足.研究证明,利用网络中知识的时空信息以及相关性,能够提高网络中知识间的关联推理的准确率.针对以上问题,首先提出了一种包含时空信息的演化知识网络表示模型,然后研究在该网络模型上的关联推理问题,提出了一种基于背包问题的知识间关联推理方法.在多个数据集上的实验证明了所提出的关联推理方法的有效性以及对大规模知识网络的适应性. 展开更多
关键词 关联推理 演化知识网络 背包问题 链接延展模式 知识库
在线阅读 下载PDF
基于词嵌入与记忆网络的方面情感分类 被引量:6
17
作者 刘一伊 张瑾 +2 位作者 余智华 刘悦 程学旗 《模式识别与人工智能》 EI CSCD 北大核心 2019年第12期1093-1099,共7页
用户评论往往同时包含多个方面、多种情感,如何正确判断一条评论中不同方面的情感倾向性是方面情感分析的难点.文中提出基于词嵌入与记忆网络的方面情感分类.通过在记忆网络的不同模块引入方面词向量,加强方面词的语义信息,指导注意力... 用户评论往往同时包含多个方面、多种情感,如何正确判断一条评论中不同方面的情感倾向性是方面情感分析的难点.文中提出基于词嵌入与记忆网络的方面情感分类.通过在记忆网络的不同模块引入方面词向量,加强方面词的语义信息,指导注意力机制捕捉方面相关的上下文信息,提升方面情感分类效果.在SemEval 2014任务4的短文本英文评论数据集和文中标注的长文本中文新闻数据集上实验表明,文中方法分类效果较好,在记忆网络框架下引入方面词嵌入信息是有效的. 展开更多
关键词 方面情感分类 词嵌入 记忆神经网络 注意力机制
在线阅读 下载PDF
基于图的多源数据融合框架研究 被引量:6
18
作者 匡广生 郭岩 +2 位作者 俞晓明 刘悦 程学旗 《计算机科学》 CSCD 北大核心 2021年第11期170-175,共6页
在给定的任务中分析各种数据时,目前大多数研究只针对单源数据进行分析,缺乏应用于多源数据的方法。但如今数据日益丰富,因此提出一种多源数据融合框架,用于融合多种网络平台数据。同一平台数据中包含文本与各种属性,同时不同平台的数... 在给定的任务中分析各种数据时,目前大多数研究只针对单源数据进行分析,缺乏应用于多源数据的方法。但如今数据日益丰富,因此提出一种多源数据融合框架,用于融合多种网络平台数据。同一平台数据中包含文本与各种属性,同时不同平台的数据在内容与形式方面也存在很大差异。然而现有的网络信息挖掘方法大多仅使用同一平台中的部分数据进行分析,忽略了不同平台的数据之间存在的相互作用。因此文中提出一种数据融合框架,一方面,能基于图的强大表示能力融合同一平台不同类型的特征,从而提升单个平台的任务性能;另一方面能够利用不同平台的数据特征,使其相互补充,从而提升多个平台的任务性能。文中讨论的融合数据类型包括文本、时间、作者信息,这些特征涉及连续特征、离散特征以及非结构化特征。所提框架在事件分类任务上提升了F 1值,验证了提出的多源数据框架的有效性。 展开更多
关键词 融合表示 多源数据 图融合
在线阅读 下载PDF
一种社会网络用户身份特征识别方法 被引量:10
19
作者 胡开先 梁英 +2 位作者 许洪波 毕晓迪 左遥 《计算机研究与发展》 EI CSCD 北大核心 2016年第11期2630-2644,共15页
社会网络是现代信息社会重要的组成部分.社会网络用户身份不透明、不可见的特性带来一系列社会安全问题.提出了一种社会网络身份特征识别方法,分别利用基于位置的社会网络和社交关系进行社会网络用户的身份特征识别,融合2种识别结果推... 社会网络是现代信息社会重要的组成部分.社会网络用户身份不透明、不可见的特性带来一系列社会安全问题.提出了一种社会网络身份特征识别方法,分别利用基于位置的社会网络和社交关系进行社会网络用户的身份特征识别,融合2种识别结果推测社会网络用户真实身份.提出了一种基于位置的社会网络用户身份识别方法,通过计算中文分词和二元组分词的基本匹配权重和完全匹配权重得到近似度权重,并用它衡量实体为用户所属实体的可能性;通过实体名称聚合算法,对近似度权重计算结果进行优化.根据好友之间倾向于拥有相似的身份特征和相同的兴趣爱好的观察,提出了一种基于社交关系的多数投票的身份识别方法,对社交关系中的用户身份特征进行统计,推测当前用户的地址信息、实体信息和用户兴趣.基于微博数据,进行了样本数为1 000名用户和10 000名用户的2组实验,涵盖了超过250万条社交关系.实验结果表明,提出的虚实映射方法有很高的准确率和覆盖率,与现有方法相比,该方法着眼于推测个人用户细粒度的身份特征,具有较高的实际应用价值. 展开更多
关键词 身份识别 用户身份特征 基于位置的社会网络 社交关系 去匿名化
在线阅读 下载PDF
多文档短摘要生成技术研究 被引量:2
20
作者 张随远 薛源海 +2 位作者 俞晓明 刘悦 程学旗 《广西师范大学学报(自然科学版)》 CAS 北大核心 2019年第2期60-74,共15页
自动摘要技术用于将较长篇幅的文章压缩为一段较短的能概括原文中心内容的文本。多文档冗余度高,电子设备所展示的空间有限,成为摘要发展面临的挑战。本文提出融合图卷积特征的句子粗粒度排序方法。首先将句子之间的相似度矩阵视为拓扑... 自动摘要技术用于将较长篇幅的文章压缩为一段较短的能概括原文中心内容的文本。多文档冗余度高,电子设备所展示的空间有限,成为摘要发展面临的挑战。本文提出融合图卷积特征的句子粗粒度排序方法。首先将句子之间的相似度矩阵视为拓扑关系图,对其进行图卷积计算得到图卷积特征。然后通过排序模型融合图卷积特征以及主流的抽取式多文档摘要技术对句子进行重要度排序,选取排名前四的句子作为摘要。最后提出基于Seq2seq框架的短摘要生成模型:①在Encoder部分采用基于卷积神经网络(CNN)的方法;②引入基于注意力的指针机制,并将主题向量融入其中。实验结果表明,在本文场景下,相较于循环神经网络(RNN),在Encoder部分基于CNN能够更好地进行并行化,在效果基本一致的前提下,显著提升效率。此外,相较于传统的基于抽取和压缩的模型,本文提出的模型在ROUGE指标以及可读性(信息度和流利度)方面均取得了显著的效果提升。 展开更多
关键词 多文档 短摘要生成 Seq2seq
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部