期刊导航
期刊开放获取
唐山市科学技术情报研究..
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向新领域的事件抽取研究综述
被引量:
7
1
作者
黄河燕
刘啸
《智能系统学报》
CSCD
北大核心
2022年第1期201-212,共12页
在当前互联网时代,大量新领域下的非结构文本数据中蕴含了海量信息。面向新领域的事件抽取方法研究能快速地构建领域知识库,用于支撑基于知识的下游应用。但现有事件抽取系统的领域限定性强,在新领域中从零构建会极度依赖事件体系和标...
在当前互联网时代,大量新领域下的非结构文本数据中蕴含了海量信息。面向新领域的事件抽取方法研究能快速地构建领域知识库,用于支撑基于知识的下游应用。但现有事件抽取系统的领域限定性强,在新领域中从零构建会极度依赖事件体系和标注数据的质量及规模,需要大量人力和专家知识来定制模板和标注语料。而且数据集中常见在相同的上下文中出现多个相关联的事件实例,对事件抽取和真实性检测产生了极大阻碍。本文针对面向新领域的事件抽取这一新兴研究领域进行综述,从事件模板推导、多实例联合事件抽取、事件真实性检测三个研究方向介绍了相关工作的研究现状,并对目前存在的重点和难点问题进行了讨论,指出了下一步需要开展的研究工作。
展开更多
关键词
事件抽取
新领域
信息抽取
事件模板推导
联合抽取
事件真实性检测
自然语言处理
知识库
在线阅读
下载PDF
职称材料
基于知识增强的文本隐喻识别图编码方法
2
作者
黄河燕
刘啸
刘茜
《计算机研究与发展》
EI
CSCD
北大核心
2023年第1期140-152,共13页
隐喻识别是自然语言处理中语义理解的重要任务之一,目标为识别某一概念在使用时是否借用了其他概念的属性和特点.由于单纯的神经网络方法受到数据集规模和标注稀疏性问题的制约,近年来,隐喻识别研究者开始探索如何利用其他任务中的知识...
隐喻识别是自然语言处理中语义理解的重要任务之一,目标为识别某一概念在使用时是否借用了其他概念的属性和特点.由于单纯的神经网络方法受到数据集规模和标注稀疏性问题的制约,近年来,隐喻识别研究者开始探索如何利用其他任务中的知识和粗粒度句法知识结合神经网络模型,获得更有效的特征向量进行文本序列编码和建模.然而,现有方法忽略了词义项知识和细粒度句法知识,造成了外部知识利用率低的问题,难以建模复杂语境.针对上述问题,提出一种基于知识增强的图编码方法(knowledge-enhanced graph encoding method,KEG)来进行文本中的隐喻识别.该方法分为3个部分:在文本编码层,利用词义项知识训练语义向量,与预训练模型产生的上下文向量结合,增强语义表示;在图网络层,利用细粒度句法知识构建信息图,进而计算细粒度上下文,结合图循环神经网络进行迭代式状态传递,获得表示词的节点向量和表示句子的全局向量,实现对复杂语境的高效建模;在解码层,按照序列标注架构,采用条件随机场对序列标签进行解码.实验结果表明,该方法的性能在4个国际公开数据集上均获得有效提升.
展开更多
关键词
隐喻识别
图循环神经网络
知识增强方法
词义项知识
细类别句法知识
序列标注
在线阅读
下载PDF
职称材料
基于短语向量和主题加权的关键词抽取方法
被引量:
3
3
作者
孙新
盖晨
+1 位作者
申长虹
张颖捷
《电子学报》
EI
CAS
CSCD
北大核心
2021年第9期1682-1690,共9页
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法 PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短...
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法 PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.
展开更多
关键词
短语向量
自编码器
主题加权
关键词抽取
在线阅读
下载PDF
职称材料
基于大语言模型知识自蒸馏的无标注专利关键信息抽取
被引量:
2
4
作者
赵建飞
陈挺
+1 位作者
王小梅
冯冲
《数据分析与知识发现》
EI
CSSCI
CSCD
北大核心
2024年第8期133-143,共11页
【目的】实现复杂专利文本中的关键技术信息自动化抽取,缓解传统自然语言处理抽取模型强领域知识标注依赖的问题。【方法】本文提出一种基于大语言模型知识自蒸馏的无标注关键信息抽取方法,基于多重角色策略,对德温特改写专利的摘要进...
【目的】实现复杂专利文本中的关键技术信息自动化抽取,缓解传统自然语言处理抽取模型强领域知识标注依赖的问题。【方法】本文提出一种基于大语言模型知识自蒸馏的无标注关键信息抽取方法,基于多重角色策略,对德温特改写专利的摘要进行结构化分析,通过知识自蒸馏策略增强大语言模型关键内容抽取与结构化分析的能力。【结果】本文方法在实体抽取任务和关系抽取任务的测试中,召回率分别达到了95.40%和51.49%,并且结构化分析的格式正确率达到100%。在关系三元组抽取任务数据集RE-DocRED上,本文方法在无监督和零样本的设置下F1值达到5.01%。【结论】本文方法能够出色地完成无数据标注的专利文本关键信息抽取任务。
展开更多
关键词
大语言模型
信息抽取
专利分析
原文传递
题名
面向新领域的事件抽取研究综述
被引量:
7
1
作者
黄河燕
刘啸
机构
北京理工大学
计算机学院
北京
海量语言
信息
处理与云计算应用工程
研究
中心
北京理工大学东南信息技术研究院
出处
《智能系统学报》
CSCD
北大核心
2022年第1期201-212,共12页
基金
国家自然科学基金项目(U19B2020).
文摘
在当前互联网时代,大量新领域下的非结构文本数据中蕴含了海量信息。面向新领域的事件抽取方法研究能快速地构建领域知识库,用于支撑基于知识的下游应用。但现有事件抽取系统的领域限定性强,在新领域中从零构建会极度依赖事件体系和标注数据的质量及规模,需要大量人力和专家知识来定制模板和标注语料。而且数据集中常见在相同的上下文中出现多个相关联的事件实例,对事件抽取和真实性检测产生了极大阻碍。本文针对面向新领域的事件抽取这一新兴研究领域进行综述,从事件模板推导、多实例联合事件抽取、事件真实性检测三个研究方向介绍了相关工作的研究现状,并对目前存在的重点和难点问题进行了讨论,指出了下一步需要开展的研究工作。
关键词
事件抽取
新领域
信息抽取
事件模板推导
联合抽取
事件真实性检测
自然语言处理
知识库
Keywords
event extraction
new domains
information extraction
event schema induction
collective extraction
event factuality prediction
natural language processing
knowledge base
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于知识增强的文本隐喻识别图编码方法
2
作者
黄河燕
刘啸
刘茜
机构
北京理工大学
计算机学院
北京
海量语言
信息
处理与云计算工程
研究
中心
北京理工大学东南信息技术研究院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第1期140-152,共13页
基金
国家重点研发计划项目(2018YFB1005100)
国家自然科学基金项目(61732005)。
文摘
隐喻识别是自然语言处理中语义理解的重要任务之一,目标为识别某一概念在使用时是否借用了其他概念的属性和特点.由于单纯的神经网络方法受到数据集规模和标注稀疏性问题的制约,近年来,隐喻识别研究者开始探索如何利用其他任务中的知识和粗粒度句法知识结合神经网络模型,获得更有效的特征向量进行文本序列编码和建模.然而,现有方法忽略了词义项知识和细粒度句法知识,造成了外部知识利用率低的问题,难以建模复杂语境.针对上述问题,提出一种基于知识增强的图编码方法(knowledge-enhanced graph encoding method,KEG)来进行文本中的隐喻识别.该方法分为3个部分:在文本编码层,利用词义项知识训练语义向量,与预训练模型产生的上下文向量结合,增强语义表示;在图网络层,利用细粒度句法知识构建信息图,进而计算细粒度上下文,结合图循环神经网络进行迭代式状态传递,获得表示词的节点向量和表示句子的全局向量,实现对复杂语境的高效建模;在解码层,按照序列标注架构,采用条件随机场对序列标签进行解码.实验结果表明,该方法的性能在4个国际公开数据集上均获得有效提升.
关键词
隐喻识别
图循环神经网络
知识增强方法
词义项知识
细类别句法知识
序列标注
Keywords
metaphor detection
graph recurrent neural network
knowledge-enhanced method
word sense knowledge
fine-grained syntactic knowledge
sequence labeling
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于短语向量和主题加权的关键词抽取方法
被引量:
3
3
作者
孙新
盖晨
申长虹
张颖捷
机构
北京理工大学
计算机学院
北京
市海量语言
信息
处理与云计算应用工程
技术
研究
中心
北京理工大学东南信息技术研究院
出处
《电子学报》
EI
CAS
CSCD
北大核心
2021年第9期1682-1690,共9页
基金
国家重点研发计划项目(No.2017YFB0803300)。
文摘
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法 PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.
关键词
短语向量
自编码器
主题加权
关键词抽取
Keywords
phrase embedding
auto-encoder
theme-weighted
keyphrases extraction
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于大语言模型知识自蒸馏的无标注专利关键信息抽取
被引量:
2
4
作者
赵建飞
陈挺
王小梅
冯冲
机构
北京理工大学
计算机学院
中国科学院科技战略咨询
研究院
中国科学院
大学
经济与管理学院
信息
资源管理系
北京理工大学东南信息技术研究院
出处
《数据分析与知识发现》
EI
CSSCI
CSCD
北大核心
2024年第8期133-143,共11页
基金
中国科学院文献情报能力建设专项(项目编号:GHJ-QBZX-2021-04)的研究成果之一
文摘
【目的】实现复杂专利文本中的关键技术信息自动化抽取,缓解传统自然语言处理抽取模型强领域知识标注依赖的问题。【方法】本文提出一种基于大语言模型知识自蒸馏的无标注关键信息抽取方法,基于多重角色策略,对德温特改写专利的摘要进行结构化分析,通过知识自蒸馏策略增强大语言模型关键内容抽取与结构化分析的能力。【结果】本文方法在实体抽取任务和关系抽取任务的测试中,召回率分别达到了95.40%和51.49%,并且结构化分析的格式正确率达到100%。在关系三元组抽取任务数据集RE-DocRED上,本文方法在无监督和零样本的设置下F1值达到5.01%。【结论】本文方法能够出色地完成无数据标注的专利文本关键信息抽取任务。
关键词
大语言模型
信息抽取
专利分析
Keywords
Large Language Model
Information Extraction
Patent Analysis
分类号
G255.53 [文化科学—图书馆学]
TP18 [自动化与计算机技术—控制理论与控制工程]
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
面向新领域的事件抽取研究综述
黄河燕
刘啸
《智能系统学报》
CSCD
北大核心
2022
7
在线阅读
下载PDF
职称材料
2
基于知识增强的文本隐喻识别图编码方法
黄河燕
刘啸
刘茜
《计算机研究与发展》
EI
CSCD
北大核心
2023
0
在线阅读
下载PDF
职称材料
3
基于短语向量和主题加权的关键词抽取方法
孙新
盖晨
申长虹
张颖捷
《电子学报》
EI
CAS
CSCD
北大核心
2021
3
在线阅读
下载PDF
职称材料
4
基于大语言模型知识自蒸馏的无标注专利关键信息抽取
赵建飞
陈挺
王小梅
冯冲
《数据分析与知识发现》
EI
CSSCI
CSCD
北大核心
2024
2
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部