期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
面向新领域的事件抽取研究综述 被引量:7
1
作者 黄河燕 刘啸 《智能系统学报》 CSCD 北大核心 2022年第1期201-212,共12页
在当前互联网时代,大量新领域下的非结构文本数据中蕴含了海量信息。面向新领域的事件抽取方法研究能快速地构建领域知识库,用于支撑基于知识的下游应用。但现有事件抽取系统的领域限定性强,在新领域中从零构建会极度依赖事件体系和标... 在当前互联网时代,大量新领域下的非结构文本数据中蕴含了海量信息。面向新领域的事件抽取方法研究能快速地构建领域知识库,用于支撑基于知识的下游应用。但现有事件抽取系统的领域限定性强,在新领域中从零构建会极度依赖事件体系和标注数据的质量及规模,需要大量人力和专家知识来定制模板和标注语料。而且数据集中常见在相同的上下文中出现多个相关联的事件实例,对事件抽取和真实性检测产生了极大阻碍。本文针对面向新领域的事件抽取这一新兴研究领域进行综述,从事件模板推导、多实例联合事件抽取、事件真实性检测三个研究方向介绍了相关工作的研究现状,并对目前存在的重点和难点问题进行了讨论,指出了下一步需要开展的研究工作。 展开更多
关键词 事件抽取 新领域 信息抽取 事件模板推导 联合抽取 事件真实性检测 自然语言处理 知识库
在线阅读 下载PDF
基于知识增强的文本隐喻识别图编码方法
2
作者 黄河燕 刘啸 刘茜 《计算机研究与发展》 EI CSCD 北大核心 2023年第1期140-152,共13页
隐喻识别是自然语言处理中语义理解的重要任务之一,目标为识别某一概念在使用时是否借用了其他概念的属性和特点.由于单纯的神经网络方法受到数据集规模和标注稀疏性问题的制约,近年来,隐喻识别研究者开始探索如何利用其他任务中的知识... 隐喻识别是自然语言处理中语义理解的重要任务之一,目标为识别某一概念在使用时是否借用了其他概念的属性和特点.由于单纯的神经网络方法受到数据集规模和标注稀疏性问题的制约,近年来,隐喻识别研究者开始探索如何利用其他任务中的知识和粗粒度句法知识结合神经网络模型,获得更有效的特征向量进行文本序列编码和建模.然而,现有方法忽略了词义项知识和细粒度句法知识,造成了外部知识利用率低的问题,难以建模复杂语境.针对上述问题,提出一种基于知识增强的图编码方法(knowledge-enhanced graph encoding method,KEG)来进行文本中的隐喻识别.该方法分为3个部分:在文本编码层,利用词义项知识训练语义向量,与预训练模型产生的上下文向量结合,增强语义表示;在图网络层,利用细粒度句法知识构建信息图,进而计算细粒度上下文,结合图循环神经网络进行迭代式状态传递,获得表示词的节点向量和表示句子的全局向量,实现对复杂语境的高效建模;在解码层,按照序列标注架构,采用条件随机场对序列标签进行解码.实验结果表明,该方法的性能在4个国际公开数据集上均获得有效提升. 展开更多
关键词 隐喻识别 图循环神经网络 知识增强方法 词义项知识 细类别句法知识 序列标注
在线阅读 下载PDF
基于短语向量和主题加权的关键词抽取方法 被引量:3
3
作者 孙新 盖晨 +1 位作者 申长虹 张颖捷 《电子学报》 EI CAS CSCD 北大核心 2021年第9期1682-1690,共9页
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法 PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短... 现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法 PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息. 展开更多
关键词 短语向量 自编码器 主题加权 关键词抽取
在线阅读 下载PDF
基于大语言模型知识自蒸馏的无标注专利关键信息抽取 被引量:2
4
作者 赵建飞 陈挺 +1 位作者 王小梅 冯冲 《数据分析与知识发现》 EI CSSCI CSCD 北大核心 2024年第8期133-143,共11页
【目的】实现复杂专利文本中的关键技术信息自动化抽取,缓解传统自然语言处理抽取模型强领域知识标注依赖的问题。【方法】本文提出一种基于大语言模型知识自蒸馏的无标注关键信息抽取方法,基于多重角色策略,对德温特改写专利的摘要进... 【目的】实现复杂专利文本中的关键技术信息自动化抽取,缓解传统自然语言处理抽取模型强领域知识标注依赖的问题。【方法】本文提出一种基于大语言模型知识自蒸馏的无标注关键信息抽取方法,基于多重角色策略,对德温特改写专利的摘要进行结构化分析,通过知识自蒸馏策略增强大语言模型关键内容抽取与结构化分析的能力。【结果】本文方法在实体抽取任务和关系抽取任务的测试中,召回率分别达到了95.40%和51.49%,并且结构化分析的格式正确率达到100%。在关系三元组抽取任务数据集RE-DocRED上,本文方法在无监督和零样本的设置下F1值达到5.01%。【结论】本文方法能够出色地完成无数据标注的专利文本关键信息抽取任务。 展开更多
关键词 大语言模型 信息抽取 专利分析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部