面向互联网资源的医学命名实体识别研究被引量：6

Research of Medical Named Entity Recognition Based on Internet Resources

在线阅读下载PDF

导出

摘要医学信息提取的第一步在于命名实体识别,然而公开医学语料的缺乏使得这项工作困难重重。已有的研究大都建立在少量人工标注的文本之上,不具备很好的推广性。互联网作为大量数据的聚集地,可以从中进行医学知识的提取。针对互联网资源规模大,结构化程度低,缺乏标注等特点,提出了一种迭代式框架来对其加以利用。使用融合通用模型和领域词典的方法对文本进行标注,缓解了领域不同带来的精度降低问题。使用在线方法来构建模型,避免了迭代中对模型进行整体重构。在命名实体识别模型中融入了词法特征、词缀特征、词长特征等,提高了模型的识别能力。提出了一种启发式的模型压缩方法,增强模型的可用性。实验结果表明,所提出的策略是有效的。 The first step of medical information extraction is named entity recognition, but the lack of open medical corpus makes it rather difficult. Existing work commonly relies on a small amount of manually annotated texts, so that it can.t be widely promoted. As a collection of large amounts of data, the Internet can be used to extract medical knowledge. Considering the size and characteristic of Internet, this paper proposes an iterative framework to exploit it. In order to deal with the effect drop of domain differences, a method of fusing universal model and domain dictionary is used to annotate the text. To avoid retraining the model, an online method is used to build the model. This paper integrates multiple features in the model, including lexical features, affixes features, word length features and so on. Besides, this paper gives a heuristic model compression method to enhance the usability of the model. The experimental results show that the proposed strategies are effective.

作者田家源杨东华王宏志 TIAN Jiayuan1,YANG Donghua1,2,WANG Hongzhi1(1.School of Computer Science and Technology, Harbin Institute of Technology,Harbin 150001, China; 2.Academy of Fundamental and Interdisciplinary Sciences, Harbin Institute of Technology,Harbin 150001, Chin)

机构地区哈尔滨工业大学计算机科学与技术学院哈尔滨工业大学基础与交叉科学研究院

出处《计算机科学与探索》 CSCD 北大核心 2018年第6期898-907,共10页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金Nos.61472099 61772157 国家科技支撑计划No.2015BAH10F01~~

关键词命名实体识别互联网资源迭代框架平均感知器 named entity recognition Internet resources iterative framework average perceptron

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：48
2叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47
3王宁,葛瑞芳,苑春法,黄锦辉,李文捷.中文金融新闻中公司名的识别[J].中文信息学报,2002,16(2):1-6. 被引量：53

二级参考文献29

1俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：163
2Doan A,Naughton JF,Ramakrishnan R,et al.Information extraction challenges in managing unstructured data[J].ACM SIGMOD Record,2008,37(4):14-20.
3Vlachos A,Gasperin C.Bootstrapping and evaluating named entity recognition in the biomedical domain[C]//Proceedings of the HLT-NAACL BioNLP Workshop on Linking Natural Language and Biology.New York:Association for Computational Linguistics Morristown,2006:138-145.
4Bundschus M,Dejori M,Stetter M,et al.Extraction of semantic biomedical relations from text using conditional random fields[J].BMC Bioinformatics,2008,9:207.
5Leaman R,Gonzalez GR.BANNER:An executable survey of advances in biomedical named entity recognition[C]//Proceedings of Pacific Symposium on Biocomputing.Hawaii:World Scientific Publishing Co.Pte.Ltd,2008:652-663.
6Leaman R,Miller C,Gonzalez G.Enabling recognition of diseases in biomedical text with machine learning:Corpus and benchmark[C]//Proceedingsof the 3rdInternational Symposium on Lagauges in Biology and Medicine.Seogwipo-si.LBM,2009:82-89.
7Tsai Tzong-ham,Chou Wen-Chi,Wu Shih-Hung,et al.Integrating Linguistic Knowledge into a Conditional Random Field Framework to Identify Biomedical Named Entities[J].Expert Systems with Applications,2006,30(1):117-128.
8Sun ChengJie,Guan Yi,Wang XiaoLong,et al.Biomedical named entities recognition using conditional random fields model[J].Lecture notes in computer science,2006,4223:1279-1288.
9Salem ABM.Case based reasoning technology for medical diagnosis[J].World Academy of Science,Engineering and Technology,2007,25:9-13.
10Rossille D,Laurentc JF,Burgun A.Modelling a decisionsupport system for oncology using rule-based and case-based reasoning methodologies[J].International Journal of Medical Informatics,2005,74:299-306.

共引文献141

1姜会珍,胡海洋,马琏,赵从朴,张锋,陈婕卿,曾可,王晓露,朱卫国.基于医患对话的病历自动生成技术研究[J].中国数字医学,2021,16(10):36-40. 被引量：3
2张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：14
3刘龙航,赵铁军.融合知识的中文医疗实体识别模型[J].智能计算机与应用,2021,11(3):94-97.
4毛姝洁,张雪虎.基于兴趣点简称的检索方法研究[J].太原理工大学学报,2008,39(S1):52-55. 被引量：1
5车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
6俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：163
7宇缨,王晓龙,刘秉权.一种基于SVM／RS的中文机构名称自动识别方法[J].电子与信息学报,2006,28(5):895-900. 被引量：4
8钟良伍,郑方.基于中文机构名简称的检索方法研究[J].中文信息学报,2007,21(1):38-42. 被引量：7
9刘非凡,赵军,徐波.实体提及的多层嵌套识别方法研究[J].中文信息学报,2007,21(2):14-21. 被引量：4
10李治国,蔡东风,周俏丽,杨者青.在篇章中利用互信息识别命名实体的研究[J].沈阳航空工业学院学报,2007,24(1):35-37. 被引量：2

同被引文献51

1冯鑫,李雪,闫月,李佳培,刘梦瑶,吴晔.基于知识实体的突发公共卫生事件数据平台构建研究[J].知识管理论坛,2020(3):175-190. 被引量：2
2张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：67
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：88
4俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：163
5张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139. 被引量：21
6张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：84
7张玥杰,徐智婷,薛向阳.融合多特征的最大熵汉语命名实体识别模型[J].计算机研究与发展,2008,45(6):1004-1010. 被引量：33
8胡文博,都云程,吕学强,施水才.基于多层条件随机场的中文命名实体识别[J].计算机工程与应用,2009,45(1):163-165. 被引量：25
9王世昆,李绍滋,陈彤生.基于条件随机场的中医命名实体识别[J].厦门大学学报（自然科学版）,2009,48(3):359-364. 被引量：39
10孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：100

引证文献6

1张俊飞,毕志升,王静,吴小玲.基于BLSTM-CRF中文领域命名实体识别框架设计[J].计算技术与自动化,2019,38(3):117-121. 被引量：13
2李冬梅,檀稳.植物属性文本的命名实体识别方法研究[J].计算机科学与探索,2019,13(12):2085-2093. 被引量：7
3马千程,王崑声,周晓纪.基于深度学习的竞争情报命名实体识别研究[J].情报探索,2020(9):1-7. 被引量：2
4江川,王东波.基于BERT的突发公共卫生重大传染病事件实体知识自动抽取研究[J].科技情报研究,2021,3(2):23-35. 被引量：3
5任宋洁.基于条件随机场的药品说明书命名实体识别研究[J].长江信息通信,2021,34(10):232-234. 被引量：1
6顾泽,雷景生,唐小岚.基于RoBERTa的工商业领域命名实体识别方法[J].计算机应用与软件,2023,40(6):124-132. 被引量：1

二级引证文献27

1刘雨可,周申培,石英,杜家宝.面向配网一次设备缺陷文本命名实体识别研究[J].武汉理工大学学报,2022,44(10):93-101. 被引量：3
2石磊,李敬明,朱家明.基于BERT-BiLSTM-CRF的突发公共卫生事件抽取研究[J].哈尔滨师范大学自然科学学报,2022,38(2):37-42. 被引量：2
3黄炜,黄建桥,李岳峰.基于BiLSTM-CRF的涉恐信息实体识别模型研究[J].情报杂志,2019,38(12):149-156. 被引量：24
4董哲,康宇佳.基于机器学习与模式匹配的食品安全刑事裁判文书关键信息提取方法[J].信息技术与信息化,2020(5):219-221.
5马千程,王崑声,周晓纪.基于深度学习的竞争情报命名实体识别研究[J].情报探索,2020(9):1-7. 被引量：2
6毛明毅,吴晨,钟义信,陈志成.加入自注意力机制的BERT命名实体识别模型[J].智能系统学报,2020,15(4):772-779. 被引量：26
7胡吉明,郑翔,程齐凯,张岩.基于BiLSTM-CRF的政府微博舆论观点抽取与焦点呈现[J].情报理论与实践,2021,44(1):174-179. 被引量：13
8王辉,Marius Petrescu,潘俊辉,王浩畅,张强,张岩.面向油田领域的中文真词错误自动校对方法研究[J].计算技术与自动化,2021,40(1):140-143. 被引量：1
9罗熹,夏先运,安莹,陈先来.结合多头自注意力机制与BiLSTM-CRF的中文临床实体识别[J].湖南大学学报（自然科学版）,2021,48(4):45-55. 被引量：30
10董哲,邵若琦,陈玉梁,翟维枫.基于BERT和对抗训练的食品领域命名实体识别[J].计算机科学,2021,48(5):247-253. 被引量：16

1王一娴.习作课程当整体建构[J].小学语文教师,2018,0(4):61-65. 被引量：1
2邵汉民.重构顺序分解难点——“角的度量”单元整体重构与预学作业的设计[J].教学月刊（小学版）（数学）,2017,0(7):40-43. 被引量：1
3李娜,于丹婷.游戏材料的结构化程度对幼儿发展的价值[J].现代职业教育,2017,0(34):50-50. 被引量：1
4王岩锁.初中语文多媒体教学策略探究[J].中小学电教（下）,2018,0(5):63-63.
5朱颢东,杨立志,丁温雪,冯嘉美.面向中文微博命名实体识别的对比研究[J].湖北民族学院学报（自然科学版）,2017,35(1):19-22. 被引量：1
6张悦.一种新颖的多功能“警信”APP设计方案[J].电脑知识与技术,2018,14(5):104-108.
7张颖.十年迭代续写传奇全新一代斯堪尼亚登陆中国[J].汽车与配件,2018,0(15):72-75.
8董红翠.重新构建习作教学的“内在序列”[J].文教资料,2017(35):236-237.
9董永祺.新型短切纤维复合材料[J].玻璃钢,2018(1):19-22.
10张元刚.浅析智能变电站二次设备运行维护及故障处理[J].名城绘,2018,0(1):208-208.

计算机科学与探索

2018年第6期

浏览历史

内容加载中请稍等...

面向互联网资源的医学命名实体识别研究被引量：6

参考文献3

二级参考文献29

共引文献141

同被引文献51

引证文献6

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

面向互联网资源的医学命名实体识别研究 被引量：6

参考文献3

二级参考文献29

共引文献141

同被引文献51

引证文献6

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

面向互联网资源的医学命名实体识别研究被引量：6