期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
多文档文摘中句子优化选择方法研究 被引量:13
1
作者 秦兵 刘挺 +1 位作者 陈尚林 李生 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1129-1134,共6页
在多文档文摘子主题划分的基础上,提出了一种在子主题之间对文摘句优化选择的方法·首先在句子相似度计算的基础上,形成多文档集合的子主题,通过对各子主题打分,确定子主题的抽取顺序·以文摘中有效词的覆盖率作为优化指标,在... 在多文档文摘子主题划分的基础上,提出了一种在子主题之间对文摘句优化选择的方法·首先在句子相似度计算的基础上,形成多文档集合的子主题,通过对各子主题打分,确定子主题的抽取顺序·以文摘中有效词的覆盖率作为优化指标,在各个子主题中选择文摘句·从减少子主题之间及子主题内部的信息的冗余性两个角度选择文摘句,使文摘的信息覆盖率得到很大提高·实验表明,生成的文摘是令人满意的· 展开更多
关键词 多文档文摘 子主题 句子优化选择
在线阅读 下载PDF
动态多文档文摘模型 被引量:9
2
作者 刘美玲 郑德权 +1 位作者 赵铁军 于洋 《软件学报》 EI CSCD 北大核心 2012年第2期289-298,共10页
从网络信息的动态演化性出发,对同一话题不同时序阶段的文档集合进行识别和分析,在度量演化内容差异性的基础上实现动态性,给出了两种实现动态多文档文摘的模型,即基于矩阵子空间分析和基于文本相似度累加的动态多文档文摘模型.在此基础... 从网络信息的动态演化性出发,对同一话题不同时序阶段的文档集合进行识别和分析,在度量演化内容差异性的基础上实现动态性,给出了两种实现动态多文档文摘的模型,即基于矩阵子空间分析和基于文本相似度累加的动态多文档文摘模型.在此基础上,提出了高效的动态句子加权方法.TAC 2008的Update Summarization测试数据上的实验证明了所提出的动态多文档文摘模型的有效性. 展开更多
关键词 多文档文摘 差异性分析 矩阵模型 相似度累加 动态演化
在线阅读 下载PDF
基于局部主题判定与抽取的多文档文摘技术 被引量:10
3
作者 秦兵 刘挺 李生 《自动化学报》 EI CSCD 北大核心 2004年第6期905-910,共6页
提出了一个通过对同一主题的多文档集合内局部主题的判定和抽取生成多文档文摘的方法.首先在对多文档集合中句子依存分析和语义分析的基础上进行相似度计算,将相似句子经过聚类形成多文档集合内不同的局部主题,然后进行每个局部主题... 提出了一个通过对同一主题的多文档集合内局部主题的判定和抽取生成多文档文摘的方法.首先在对多文档集合中句子依存分析和语义分析的基础上进行相似度计算,将相似句子经过聚类形成多文档集合内不同的局部主题,然后进行每个局部主题中质心句的抽取和排序,生成多文挡文摘.该方法实现了文摘长度随文档内容自动确定,从而保证了文摘中包含的信息的全面和简洁.最后文中还给出了多文档文摘的评价方法和实验结果,文摘的平均精确率和平均压缩率分别为71.4%和25.2%. 展开更多
关键词 多文档文摘 局部主题 聚类
在线阅读 下载PDF
基于宏微观重要性判别模型的时序多文档文摘 被引量:4
4
作者 贺瑞芳 秦兵 +2 位作者 刘挺 潘越群 李生 《计算机研究与发展》 EI CSCD 北大核心 2009年第7期1184-1191,共8页
时序多文档文摘是针对新闻领域跨时段的相关文档集,即系列新闻报道进行问题无关的、抽取式文摘.根据系列新闻报道不同细节层次的时序特性,提出一种基于宏微观重要性判别模型的内容选择方法.从宏观和微观角度挖掘信息随着时间进化的时序... 时序多文档文摘是针对新闻领域跨时段的相关文档集,即系列新闻报道进行问题无关的、抽取式文摘.根据系列新闻报道不同细节层次的时序特性,提出一种基于宏微观重要性判别模型的内容选择方法.从宏观和微观角度挖掘信息随着时间进化的时序特性,以指导时序多文档文摘的内容选择.首先通过宏观模型确定重要的时间点,然后通过微观模型在重要的时间点选择重要的句子,从而更有效地获取文摘.实验证明该方法是有效的. 展开更多
关键词 时序多文档文摘 时序语义标注 宏微观重要性判别模型 内容选择
在线阅读 下载PDF
用于多文档文摘句排序的改进MO算法 被引量:2
5
作者 蒋效宇 樊孝忠 陈康 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第9期43-47,70,共6页
针对CO和MO文摘句排序算法的缺陷,提出了一种将局部主题间的内聚度与MO算法相结合进行文摘句排序的新方法.在统计局部主题间相对位置的基础上,建立它们之间的关系有向图并计算其内聚度;排序过程中每从有向图中输出一个顶点,便从剩余顶... 针对CO和MO文摘句排序算法的缺陷,提出了一种将局部主题间的内聚度与MO算法相结合进行文摘句排序的新方法.在统计局部主题间相对位置的基础上,建立它们之间的关系有向图并计算其内聚度;排序过程中每从有向图中输出一个顶点,便从剩余顶点中查找与其具有最大内聚度的顶点,若该内聚度大于阈值,则将这两个顶点所代表的局部主题文摘句置于摘要中相邻的位置.实验结果表明,该算法排序生成的文摘更具连贯性和可读性. 展开更多
关键词 人工智能 多文档文摘 局部主题 句子排序
在线阅读 下载PDF
面向事件的多文档文摘生成算法的研究 被引量:1
6
作者 程显毅 潘燕 +1 位作者 朱倩 孙萍 《广西师范大学学报(自然科学版)》 CAS 北大核心 2011年第1期147-150,共4页
针对目前基于主题相似性生成多文档文摘的系统存在语义不精确、只能传达多篇具有同一主题的文档所携带的主要信息(横向文摘)的问题。本文基于HNC理论,提出的面向事件的多文档自动文摘模型,旨在用很短的文本来传达多篇具有同一事件的文... 针对目前基于主题相似性生成多文档文摘的系统存在语义不精确、只能传达多篇具有同一主题的文档所携带的主要信息(横向文摘)的问题。本文基于HNC理论,提出的面向事件的多文档自动文摘模型,旨在用很短的文本来传达多篇具有同一事件的文档所携带的后续报道信息(纵向文摘)。实验结果表明,本方法在信息覆盖率、信息冗余度和文摘流利度方面比TF×IDF方法有很大的改进。 展开更多
关键词 多文档文摘 事件 HNC 自然语言处理
在线阅读 下载PDF
多文档文摘句子优选算法研究 被引量:1
7
作者 张姝 赵铁军 +1 位作者 姚超 郑德权 《电子与信息学报》 EI CSCD 北大核心 2008年第12期2921-2925,共5页
该文通过对文摘句的选择问题进行分析,提出了一种文摘句优选方法,相对于传统的逐个添加句子生成文摘的方法,该文提出的方法是在一定范围内逐个删除句子生成文摘。该方法分两阶段进行句子选择,第1阶段获取候选文摘句子集合,采用了直接获... 该文通过对文摘句的选择问题进行分析,提出了一种文摘句优选方法,相对于传统的逐个添加句子生成文摘的方法,该文提出的方法是在一定范围内逐个删除句子生成文摘。该方法分两阶段进行句子选择,第1阶段获取候选文摘句子集合,采用了直接获取算法和基于冗余信息处理的获取算法。第2阶段逐步删除句子,分别以不同特征项作为衡量句子对候选文摘句子集合的贡献,提出了文摘句优选算法。以DUC2004为实验语料,通过经句子选择后生成文摘的ROUGE得分,验证了句子选择在文摘生成过程中的必要性,与基于冗余信息处理的句子选择方法比较,验证了该文提出算法的有效性。 展开更多
关键词 句子优选 多文档文摘 冗余信息处理
在线阅读 下载PDF
基于最大树法的多文档文摘子主题划分 被引量:1
8
作者 云晓燕 王春英 《辽宁科技大学学报》 CAS 2009年第6期575-580,共6页
提出一种基于最大树法的生成多文档文摘子主题划分方法。对多文档集合中的句子进行基于语义词典的相似度计算,形成相似度矩阵。提出了将相同或相似的句子通过模糊聚类的方法归并成一类,每一类代表一个子主题,通过抱团结构分析划分出子... 提出一种基于最大树法的生成多文档文摘子主题划分方法。对多文档集合中的句子进行基于语义词典的相似度计算,形成相似度矩阵。提出了将相同或相似的句子通过模糊聚类的方法归并成一类,每一类代表一个子主题,通过抱团结构分析划分出子主题。实验结果表明,生成的多文档文摘覆盖性强,冗余信息少,具有一定实用价值。 展开更多
关键词 多文档文摘 子主题划分 最大树算法
在线阅读 下载PDF
一种有效的多文档文摘语义空间降维方法
9
作者 张先飞 刘嵩 +1 位作者 韩永峰 孙显著 《情报学报》 CSSCI 北大核心 2011年第3期286-291,共6页
基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词.文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题。本文对话题追踪结果进行多文档文摘研究,提出一种有效的多... 基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词.文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题。本文对话题追踪结果进行多文档文摘研究,提出一种有效的多文档文摘语义空间降维方法。新方法在整个话题范围内构造语义空间词-文档矩阵,采用奇异值分解对原始词.文档矩阵进行特征降维,同时构造能充分包含原始文档词汇信息且维数低的转换矩阵F,利用它来回溯词-文档矩阵,完成低维空间下的词相似度计算,进而完成文本单元相似度计算以及文本单元聚类,最终生成多文档自动文摘。实验结果表明,该方法能够对语义空间词.文档矩阵进行完美降维,同时避免稀疏矩阵无法计算的问题,对最终生成的多文档文摘有着很好的效果。 展开更多
关键词 语义空间 多文档文摘 特征降维 奇异值分解 聚类
在线阅读 下载PDF
基于主题概念抽取的多文档文摘方法 被引量:5
10
作者 宋宣辰 刘贵全 《计算机工程》 CAS CSCD 北大核心 2010年第4期190-192,共3页
提出一种应用于多文档文摘的有效概念抽取方法。利用WordNet中词语的同义和上下义关系进行语义消歧和概念树构造,通过概念优化算法进行主题概念抽取,建立概念向量空间模型并通过最大边缘相关方法得到文摘句。采用语义概念统计来替代传... 提出一种应用于多文档文摘的有效概念抽取方法。利用WordNet中词语的同义和上下义关系进行语义消歧和概念树构造,通过概念优化算法进行主题概念抽取,建立概念向量空间模型并通过最大边缘相关方法得到文摘句。采用语义概念统计来替代传统的词形统计,能更准确地提取文档中的重要信息。DUC2005的评测结果表明,该方法比传统方法能获得更好的效果。 展开更多
关键词 多文档文摘 概念树 概念抽取
在线阅读 下载PDF
面向TDT的动态多文档文摘研究 被引量:2
11
作者 刘美玲 赵铁军 +1 位作者 郑德权 于摇洋 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2010年第11期1767-1770,共4页
应用话题检测技术中的聚类思想,分析了动态多文档文摘时间特性.利用时间信息的阈值变化得到不同的多文档聚类结果,进而生成基于动态网页信息数据流的多文档文摘.针对不同阈值的多文档文摘比较,了解时间信息在动态的多文档文摘中的重要性... 应用话题检测技术中的聚类思想,分析了动态多文档文摘时间特性.利用时间信息的阈值变化得到不同的多文档聚类结果,进而生成基于动态网页信息数据流的多文档文摘.针对不同阈值的多文档文摘比较,了解时间信息在动态的多文档文摘中的重要性.实验证明在TDT的话题检测技术中,可通过调整α值的方法来平衡TDT的输出结果,进而生成质量更好的动态多文档文摘。 展开更多
关键词 话题检测 时间信息 动态阈值 多文档文摘
在线阅读 下载PDF
多文档文摘中基于时间信息的句子排序策略研究 被引量:8
12
作者 徐永东 王亚东 +2 位作者 刘杨 王伟 权光日 《中文信息学报》 CSCD 北大核心 2009年第4期27-33,共7页
文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序... 文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序效果。对此该文从文本时间信息处理入手,首先提出了中文文本时间信息抽取、语义计算以及时序推理算法,并在此算法基础上,借鉴传统的主成分排列的思想和句子相关度计算方法,提出了基于时间信息的句子排序算法。实验表明该算法的质量要明显好于传统的主成分排列算法和时序排列算法。 展开更多
关键词 计算机应用 中文信息处理 多文档自动文摘 句子排序 中文时间信息处理
在线阅读 下载PDF
多文档文摘语义单元自动去噪器的监督学习方法
13
作者 龚书 瞿有利 田盛丰 《计算机研究与发展》 EI CSCD 北大核心 2013年第4期873-882,共10页
多文档文摘的处理对象是存在噪音的文档集.现有文摘系统一般使用由人工设定阈值的固定阈值去噪器.但通过实验可见,不同文摘算法本身的抗噪能力各有高低,最优阈值随文档集、文摘算法、文本表示方法而改变,人工设定的固定阈值无法达到较... 多文档文摘的处理对象是存在噪音的文档集.现有文摘系统一般使用由人工设定阈值的固定阈值去噪器.但通过实验可见,不同文摘算法本身的抗噪能力各有高低,最优阈值随文档集、文摘算法、文本表示方法而改变,人工设定的固定阈值无法达到较好的通用性和去噪效果.为此,提出一种用于生成自动去噪器的监督学习方法,通过从人工文摘中自动获得标注信息,为语义单元提取多个特征,训练语义单元分类器而构成自动去噪器.可通用于不同文本表示所生成的语义单元,在不同多文档文摘系统的预处理阶段为任意文档集自动去除噪音语义单元.实验表明,该监督学习方法所生成的自动去噪器在不同文档集、文摘算法和文本表示方法下具有通用性,较好的去噪性能使各文摘算法的速度及所提取文摘的质量得到不同程度的提升. 展开更多
关键词 自动去噪 监督学习 多文档文摘 文本表示 预处理
在线阅读 下载PDF
动态流形方法在多文档文摘模型上的应用
14
作者 刘美玲 郑德权 +1 位作者 王慧强 于洋 《计算机技术与发展》 2018年第3期26-31,共6页
网络动态演化内容的识别和分析是人们快速获取有效信息的主要手段之一,已经成为人们迫切需要解决的关键问题。动态多文档文摘建立在时间信息基础上,从网络动态演化性出发,对同一话题不同时段的文档集合进行分析,在识别信息内容差异性的... 网络动态演化内容的识别和分析是人们快速获取有效信息的主要手段之一,已经成为人们迫切需要解决的关键问题。动态多文档文摘建立在时间信息基础上,从网络动态演化性出发,对同一话题不同时段的文档集合进行分析,在识别信息内容差异性的基础上,对信息的动态演化性进行建模。文中在经典流行排序思想的基础上,进一步提出了动态流行排序模型。该模型中不仅融入了信息的重要性特征,而且融入了信息与历史信息的关联特征以及信息的时间特征,使文摘信息动了起来,即文摘系统具有了动态性。该模型在国际标准评测TAXT ANYNASIS CONFERENCE 2008的Update task任务语料上进行了测试,获得了较好的实验结果。 展开更多
关键词 动态多文档文摘 动态演化性 差异性分析 相似度 质心整体选优
在线阅读 下载PDF
一种改进的TextRank多文档文摘自动抽取模型
15
作者 王楠 曾曼玲 《软件导刊》 2023年第5期1-6,共6页
多文档自动文摘通过自然语言处理技术从多篇同主题的文档中提取概述性信息,可有效缓解信息负载问题,有助于用户迅速准确获取原文核心内容。针对中文文本特点,构建一种基于TextRank算法改进的多文档文摘自动抽取模型。首先通过预训练Word... 多文档自动文摘通过自然语言处理技术从多篇同主题的文档中提取概述性信息,可有效缓解信息负载问题,有助于用户迅速准确获取原文核心内容。针对中文文本特点,构建一种基于TextRank算法改进的多文档文摘自动抽取模型。首先通过预训练Word2Vec词向量模型与SIF方法融合,在中文维基百科语料库上进行预训练,获取文档中所有句子的句向量;然后借助余弦相似度构造TextRank句子间的边关系;最后使用MMR算法对文摘句进行冗余处理,得到全面又多样的文摘。通过ROUGE-N评价指标对模型进行性能评价,实验结果表明,所提模型的ROUGE-1、ROUGE-2、ROUGE-L指标值分别为0.549、0.322、0.357,均优于传统TextRank方法和Word2vec(实验样本语料)+TextRank+MMR模型,文摘质量更高。 展开更多
关键词 多文档文摘 抽取式文摘 TextRank算法 Word2Vec SIF
在线阅读 下载PDF
SSC软聚类算法在面向查询的多文档文摘中的应用
16
作者 唐俊 《计算机工程与科学》 CSCD 北大核心 2010年第6期112-114,共3页
针对面向查询的多文档自动文摘,本文将查询句混入多文档集合中的各句子中间,采用高效的软聚类算法SSC对所有的句子进行聚类。采用轮转法抽取文摘句,最后生成文摘。该方法在DUC2005的语料中测试效果很好。
关键词 多文档自动文摘 软聚类算法 文摘句抽取
在线阅读 下载PDF
多文档自动文摘综述 被引量:51
17
作者 秦兵 刘挺 李生 《中文信息学报》 CSCD 北大核心 2005年第6期13-20,56,共9页
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术。随着互联网上信息的日益丰富,多文档文摘技术成为新的研究热点。本文介绍了多文档文摘的产生和应用背景,阐述了多文档文摘和其他自然语... 多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术。随着互联网上信息的日益丰富,多文档文摘技术成为新的研究热点。本文介绍了多文档文摘的产生和应用背景,阐述了多文档文摘和其他自然语言处理技术的关系,对多文档文摘国内外研究现状进行了分析,在此基础上汇总提出了多文档文摘研究的基本路线及关键技术,并总结了多文档文摘的未来及发展趋势。 展开更多
关键词 人工智能 自然语言处理 多文档文摘 自然语言处理 文本压缩
在线阅读 下载PDF
基于浅层分析的多文档自动文摘技术 被引量:5
18
作者 张姝 赵铁军 +1 位作者 郑德权 杨沐昀 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2007年第7期1102-1105,共4页
提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-... 提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-gram方法的自动评测,结果表明该方法具有较好的信息覆盖率,具有一定的实用价值. 展开更多
关键词 多文档文摘 浅层分析 MMR方法 自动评测
在线阅读 下载PDF
主题模型LDA的多文档自动文摘 被引量:24
19
作者 杨潇 马军 +2 位作者 杨同峰 杜言琦 邵海敏 《智能系统学报》 2010年第2期169-176,共8页
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型... 近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势. 展开更多
关键词 多文档自动文摘 句子分值计算 主题模型 LDA 主题数目
在线阅读 下载PDF
基于信息融合的多文档自动文摘技术 被引量:27
20
作者 徐永东 徐志明 王晓龙 《计算机学报》 EI CSCD 北大核心 2007年第11期2048-2054,共7页
提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下... 提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下实现信息融合.MDF简化了传统交叉文本结构理论的文本集合表示模型,又补充了信息融合理论中缺乏的事件主题的演变性和分布性信息.文中给出了建立MDF、基于MDF的信息融合、文摘生成等一整套算法.通过对32组不同主题的网络文档试验结果表明,MDF策略很好地实现了多知识源的并行融合,并获得了较好的结果. 展开更多
关键词 多文本框架 多文档自动文摘 信息融合 时间
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部