基于混合卷积网络的短文本实体消歧被引量：3

Mixed Convolution Network Based Entity Disambiguation for Short Text

在线阅读下载PDF

导出

摘要因短文本实体消歧具有不能完整地表达语义关系、上下文提供的信息较少等局限性。针对以上难点,该文提出了一种新的方法,混合卷积网络(Mixed Convolution Network,MCN)。该方法的核心思想是首先对数据集进行预处理;其次,采用Google提出的BERT模型进行特征提取,并通过注意力机制将特征进一步抽取后作为CNN模型的输入,通过CNN模型获得句子的依赖特征。同时,该文使用GCN模型获取语义特征,将二者提取到的语义信息融合,输出得到结果。在CCKS2019评测数据集上的实验结果表明,该文提出的混合卷积网络取得了86.57%的精确率,验证了该模型的有效性。 Entity disambiguation for short text has some limitations that short text can not fully express semantic relations,provide less context information,and so on.This paper proposes a new method named mixed convolution network(MCN).In this method,firstly,preprocess the data in the dataset;Secondly,the BERT model proposed by Google is applied to feature extraction,and the features are further extracted through the attention mechanism as the input of CNN model.The sentence dependent features are obtained through CNN model.At the same time,GCN model obtains text semantic features.The semantic information extracted from them is fused and the results are output.The experimental results on the ccks2019 evaluation data set show that the MCN proposed by this paper achieves an accuracy of 86.57%,which verifies the effectiveness of the method.

作者姜丽婷古丽拉·阿东别克马雅静 JIANG Liting;Gulila ALTENBEK;MA Yajing(College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China;Xinjiang Laboratory of Multi-language Information Technology,Urumqi,Xinjiang 830046,China;The Base of Kazakh and Kirghiz Language of National Language Resource Monitoring and Research Center on Minority Languages,Urumqi,Xinjiang 830046,China)

机构地区新疆大学信息科学与工程学院新疆多语种信息技术实验室国家语言资源监测与研究少数民族语言中心哈萨克和柯尔克孜语文基地

出处《中文信息学报》 CSCD 北大核心 2021年第11期101-108,共8页 Journal of Chinese Information Processing

基金国家自然科学基金(62062062) 新疆大学科研基金(BS 180250)

关键词短文本实体消歧 BERT 图卷积网络卷积神经网络 short text entity disambiguation BERT graph convolution network convolutional neural networks

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1赵军.命名实体识别、排歧和跨语言关联[J].中文信息学报,2009,23(2):3-17. 被引量：51
2赵军,刘康,周光有,蔡黎.开放式文本信息抽取[J].中文信息学报,2011,25(6):98-110. 被引量：62
3马晓军,郭剑毅,王红斌,张志坤,线岩团,余正涛.融合词向量和主题模型的领域实体消歧[J].模式识别与人工智能,2017,30(12):1130-1137. 被引量：8
4王红,林海舟,卢林燕.基于Att_GCN模型的知识图谱推理算法[J].计算机工程与应用,2020,56(9):183-189. 被引量：11

二级参考文献141

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：88
2蒋龙,周明,简立峰.利用音译和网络挖掘翻译命名实体[J].中文信息学报,2007,21(1):23-29. 被引量：11
3NIST. The ACE 2007 (ACE07) Evaluation Plan: Evaluation of the Detection and Recognition of ACE Entities, Values, Temporal Expressions, Relations, and Events [EB/OL]. [-2007]. http://www, hist. gov/ speech/tests/ace/2OOT/doc/aceOT-evalplan, vl. 3a. pdf.
4Nancy A. Chinchor. Overview of MUC-7/MET-2[C]//Proceedings of the Seventh Message Under- standing Conference (MUC-7), Fairfax, Virginia, 1998.
5Gina Anne Levow. The Third International Chinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition[C]//Proceedings of the Fifth SigHAN Workshop on Chinese Language Processing, Sydney: Association for Computational Lin- guistics, 2006:108 117.
6A. Mikheev, C. Grover, Moens M. Description of the LTG System Used for MUC-7[C]//Proceedings of 7th Message Understanding Conference ( MUC-7 ), Fairfax, Virginia, 1998.
7863计划中文信息处理与智能人机接口技术评测组.2004年度863计划中文信息处理与智能人机交互技术评测:命名实体评测结果报告[R].北京:863计划中文信息处理与智能人机接口技术评测组,2004.
8Ralph Grishman, Beth Sundheim. Design of the MUC-6 evaluation [C]//Proceedings of 6th Message Under- standing Conference, Columbia, MD, 199S.
9G. R. Krupka, K. Hausman. IsoQuest. Inc.:Description of the NetOwl TM Extractor System as Used for MUC-7 [C]//Proceedings of the 7th Message Understanding Conference. (MUC-7), Fairfax, Virginia, 1998.
10W.J. Black, F. Rinaldi, D. Mowart. FACILE: Description of the NE System Used for MUC-7 [C]// Proceedings of the 7th Message Understanding Conference. (MUC-7), Fairfax, Virginia, 1998.

共引文献124

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：8
2罗文华.非结构化数据处理分析在电子数据取证中的应用[J].警察技术,2010(3):42-45.
3李楠,郑荣廷,吉久明,滕青青.基于启发式规则的中文化学物质命名识别研究[J].现代图书情报技术,2010(5):13-17. 被引量：13
4赵军,刘康,周光有,蔡黎.开放式文本信息抽取[J].中文信息学报,2011,25(6):98-110. 被引量：62
5张俊三,瞿有利.信息检索中相关实体发现综述[J].计算机工程与设计,2011,32(12):4035-4038. 被引量：2
6李静,罗文华,林鸿飞.自然语言处理技术在网络案情分析系统中的应用[J].计算机工程与应用,2012,48(3):216-220. 被引量：5
7胡伟,柏文阳,瞿裕忠.语义Web中对象共指的消解研究[J].软件学报,2012,23(7):1729-1744. 被引量：7
8张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
9杜婧君,陆蓓,谌志群.基于中文维基百科的命名实体消歧方法[J].杭州电子科技大学学报（自然科学版）,2012,32(6):57-60. 被引量：3
10唐伟,洪宇,冯艳卉,姚建民,朱巧明.网页中商品“属性—值”关系的自动抽取方法研究[J].中文信息学报,2013,27(1):21-29. 被引量：7

同被引文献27

1Zhibin Chen,Yuting Wu,Yansong Feng,Dongyan Zhao.Integrating Manifold Knowledge for Global Entity Linking with Heterogeneous Graphs[J].Data Intelligence,2022,4(1):20-40. 被引量：2
2Qiushuo Zheng,Hao Wen,Meng Wang,Guilin Qi.Visual Entity Linking via Multi-modal Learning[J].Data Intelligence,2022,4(1):1-19. 被引量：4
3朱征宇,孙俊华.改进的基于《知网》的词汇语义相似度计算[J].计算机应用,2013,33(8):2276-2279. 被引量：58
4邵发,黄银阁,周兰江,郭剑毅,余正涛,张金鹏.基于实体消歧的中文实体关系抽取[J].山东大学学报（工学版）,2014,44(6):32-37. 被引量：6
5汪沛,线岩团,郭剑毅,文永华,陈玮,王红斌.一种结合词向量和图模型的特定领域实体消歧方法[J].智能系统学报,2016,11(3):366-375. 被引量：7
6毛二松,王波,唐永旺,梁丹.基于词向量的中文微博实体链接方法[J].计算机应用与软件,2017,34(4):11-15. 被引量：6
7朱颢东,杨立志,丁温雪,冯嘉美.基于主题标签和CRF的中文微博命名实体识别[J].华中师范大学学报（自然科学版）,2018,52(3):316-321. 被引量：13
8曾维新,赵翔,冯滔,唐九阳.面向领域的命名实体消歧方法改进研究[J].计算机工程与应用,2018,54(17):126-134. 被引量：3
9CHAI Mingke,LI Dongmei,ZHUANG Tingting,YANG Shuyi.Named Entity Disambiguation Based on Classified and Structural Semantic Relatedness[J].Chinese Journal of Electronics,2018,27(6):1176-1182. 被引量：1
10Wenpeng Lu,Fanqing Meng,Shoujin Wang,Guoqiang Zhang,Xu Zhang,Antai Ouyang,Xiaodong Zhang.Graph-Based Chinese Word Sense Disambiguation with Multi-Knowledge Integration[J].Computers, Materials & Continua,2019(7):197-212. 被引量：1

引证文献3

1范明炜,张云华.基于改进BERT和多阶段TCN的短文本分类[J].智能计算机与应用,2022,12(7):156-159.
2李欣宇,赵震.命名实体消歧研究综述[J].计算机技术与发展,2024,34(2):1-8. 被引量：1
3张玥,李韧,杨建喜,肖桥,谢江村,蒋仕新,王笛.基于深度神经网络的实体链接研究综述[J].中文信息学报,2024,38(8):1-14.

二级引证文献1

1季源泽,李霏.CMNER:基于微博的中文多模态实体识别数据集[J].计算机技术与发展,2024,34(10):110-117. 被引量：1

1薛明华,艾春美,律慧瑾,苏明旭.电厂安全帽佩戴安全性监控的智能图像处理方法[J].中国电机工程学报,2022,42(9):3346-3353. 被引量：10
2Robert Pollie.Machine Learning Produces Superhuman Chip Designs[J].Engineering,2022,8(3):7-9.
3Kerry Liu.The effects of the China–US trade war during 2018–2019 on the Chinese economy:an initial assessment[J].Economic and Political Studies,2020,8(4):462-481. 被引量：1
4郭宇,窦志成,文继荣.PCC:一个对单用户建模的个性化对话系统[J].中文信息学报,2021,35(12):112-121.
5王雪婷,张烨菲,张显飞,赵治栋.基于单导联的心电信号身份识别技术[J].通信技术,2022,55(5):625-633. 被引量：1
6韩升科,胡飞虎,陈之腾,张琳,白兴忠.基于GCN-LSTM的日前市场边际电价预测[J].中国电机工程学报,2022,42(9):3276-3285. 被引量：33
7曾昭毅,李春雪,梁栋栋.基于GIS的芜湖市公交线路优化分析[J].计算机与网络,2022,48(9):68-73.
8徐聪,王旭启,刘裕.一种改进可形变FCN的农作物害虫检测方法[J].江苏农业科学,2022,50(9):211-219. 被引量：5
9Kerry Liu.The effects of COVID-19 on Chinese stock markets:an EGARCH approach[J].Economic and Political Studies,2021,9(2):148-165.
10戴娟,李志强,杨冬晗.基于Cirq的Deutsch-Jozsa电路综合算法[J].量子电子学报,2022,39(3):439-445.

中文信息学报

2021年第11期

浏览历史

内容加载中请稍等...

基于混合卷积网络的短文本实体消歧被引量：3

参考文献4

二级参考文献141

共引文献124

同被引文献27

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于混合卷积网络的短文本实体消歧 被引量：3

参考文献4

二级参考文献141

共引文献124

同被引文献27

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于混合卷积网络的短文本实体消歧被引量：3