科学文献中的知识实体抽取与评价研究综述被引量：3

A Review of the Extraction and Evaluation of Knowledge Entities in Scientific Literature

在线阅读下载PDF

导出

摘要 [目的/意义]科学文献中的知识实体的挖掘、利用与评价对知识发现、构建知识网络、探索知识之间潜在关联均具有重要意义。随着机器学习、深度学习和大语言模型的发展及其应用,相比最早的基于人工标注的知识实体抽取技术,如今已经发生了翻天覆地的变化;此外,近年来,学者对科学文献中知识实体的评价也进行一些探索,取得了较大进展。[方法/过程]在相关文献调研基础上,回顾并比较了基于人工标注的方法、基于规则的方法、传统机器学习、基于深度学习与大语言模型在知识实体抽取方面的优缺点,列举了相关数据集、软件与工具及相关专业会议;从提及频率、替代计量及其影响因素、实体共现网络及实体扩散/引文网络、基于知识实体的同行评议、基于知识实体的论文新颖性和临床转化进展五大方面,对知识实体的评价研究最新进展进行了归纳与整理。[结果/结论]针对目前存在的问题,建议在具体的知识实体抽取任务中,抽取方法选择应权衡多方面因素,再依此选择一个或多个模型完成实体抽取任务;在知识实体评价方面,应重视指标多样化、可靠性、有效性、系统性和规范化研究,关注对知识实体评价指标的影响因素、指标间相关关系与因果关系的实证分析,构建基于知识实体的论文评价指标体系,从细粒度和智能化视角赋能未来的科技评价与应用。 [Purpose/Significance]The mining,utilization,and evaluation of knowledge entities in scientific literature are significant to knowledge discovery,knowledge network construction and potential relationship exploration.With the development and application of machine learning,deep learning and large language models,tremendous changes take place comparing with the earliest knowledge entity extraction technology based on manual annotation.In addition,in recent years,scholars make some explorations on the evaluation of knowledge entities in scientific literature and made great progress.[Method/Process]On the basis of literature investigation,this paper reviewed and compared the advantages and disadvantages of manual annotation-based methods,rule-based methods,traditional machine learning,deep learning,and large language models in knowledge entity extraction,and listed relevant data sets,software and tools,and relevant professional conferences.This paper summarized the latest research progress in the evaluation of knowledge entities from five aspects:mention frequency,altmetrics and its influencing factors,entity co-occurrence network and entity diffusion/citation network,peer review,novelty,and clinical translation progress of papers based on knowledge entities.[Results/Conclusions]In view of the existing problems,it is suggested that in the specific knowledge entity extraction task,the selection of extraction method should weigh many factors,and then select one or more models to complete the entity extraction task.In terms of knowledge entity evaluation,the study should pay attention to the diversification,reliability,validity,systematization,and standardization of indicators,pay attention to the empirical analysis of influencing factors of evaluation indicators,correlation,and causality among indicators,build a paper evaluation indicator system based on knowledge entities,and empower future science and technology evaluation and application from a fine-grained and intelligent perspective.

作者刘春丽陈爽 Liu Chunli;Chen Shuang(Library,China Medical University,Shenyang 110122,China;School of Health Management,China Medical University,Shenyang 110122,China)

机构地区中国医科大学图书馆中国医科大学健康管理学院

出处《现代情报》 CSSCI 2023年第12期143-163,共21页 Journal of Modern Information

关键词知识实体实体抽取实体评价科学文献实体计量学综述 knowledge entity entity extraction entity evaluation scientific literature entitymetrics review

分类号 G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献57

1王凯,孙济庆,李楠.面向学术文献的知识挖掘方法研究[J].现代情报,2017,37(5):47-51. 被引量：7
2沈雪莹,欧石燕.科学文献知识单元抽取及应用研究:梳理与展望[J].情报理论与实践,2022,45(12):195-207. 被引量：9
3Chengzhi Zhang,Philipp Mayr,Wei Lu,Yi Zhang.Extraction and Evaluation of Knowledge Entities from Scientific Documents[J].Journal of Data and Information Science,2021,6(3):1-5. 被引量：4
4李广建,袁钺.基于深度学习的科技文献知识单元抽取研究综述[J].数据分析与知识发现,2023,7(7):1-17. 被引量：10
5温雯,伍思杰,蔡瑞初,郝志峰.面向专业文献知识实体类型的抽取和标注[J].中文信息学报,2018,32(1):102-115. 被引量：6
6卢超,章成志,王玉琢,Ding Ying.语义特征分析的深化——学术文献的全文计量分析研究综述[J].中国图书馆学报,2021,47(2):110-131. 被引量：28
7安世虎,贺国光.KMS中知识的一般参考框架[J].图书情报工作,2005,49(8):41-43. 被引量：4
8朱国进,沈盼宇.基于深度学习的算法知识实体识别与发现[J].智能计算机与应用,2017,7(1):17-21. 被引量：7
9章成志,谢雨欣,宋云天.学术文本中细粒度知识实体的关联分析[J].图书馆论坛,2021,41(3):12-20. 被引量：21
10仲雨乐,马诗雯,陆豪杰,韩普.基于机器学习的药品不良反应实体识别研究综述[J].软件工程,2022,25(8):1-6. 被引量：4

二级参考文献725

1郑金连,王巍.科学客观性的新视角——基切尔与朗基诺的比较研究[J].自然辩证法研究,2021,37(8):70-74. 被引量：3
2仲怿,茹晨雷,张伯礼,程翼宇.基于知识图谱的中药制药过程质量控制方法学研究[J].中国中药杂志,2019,44(24):5269-5276. 被引量：23
3陈瑶,吴红,葛卫红,张海霞,廖俊.基于深度学习模型的我国药品不良反应报告实体关系抽取研究[J].中国药科大学学报,2019,50(6):753-759. 被引量：10
4夏翠娟.构建数智时代社会记忆的多重证据参照体系:理论与实践探索[J].中国图书馆学报,2022,48(5):86-102. 被引量：29
5李春秋,徐曾旭林,宋宁远,王晓光.基于纳米出版物的中文学位论文语义组织研究[J].中国图书馆学报,2021,47(5):97-115. 被引量：7
6王春喜,汪烁.工业自动化领域机器可读标准研究[J].中国标准化,2021(S01):27-31. 被引量：16
7马建霞,袁慧,蒋翔.基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究[J].数据分析与知识发现,2020,4(2):78-88. 被引量：8
8马娜,张智雄,吴朋民.基于特征融合的术语型引用对象自动识别方法研究[J].数据分析与知识发现,2020,4(1):89-98. 被引量：10
9陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
10张智雄,刘欢,丁良萍,吴朋民,于改红.不同深度学习模型的科技论文摘要语步识别效果对比研究[J].数据分析与知识发现,2019,3(12):1-9. 被引量：24

共引文献683

1贺鹏皓.知识流动视角下审计学科的知识来源、知识扩散与学科特征演化研究——基于1982—2022年知网引文数据库的分析[J].中国审计评论,2023(2):57-78.
2李林,张津鹏,付恩三,刘光伟.煤矿风险隐患评估系统[J].中国安全科学学报,2023,33(S02):1-6.
3陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
4杨思洛,陈志灵.全文计量视角下知识交流体系研究的模式探析[J].知识管理论坛,2024(4):380-393.
5刘勘,李冶,石锴文.基于句法和语义关联的科技文献“问题—方法”联合抽取模型[J].知识管理论坛,2024(4):353-366.
6王立新,潘香岑,于依洋,刘凤侠.《沈阳农业大学学报》1993~2022年文献计量分析[J].沈阳农业大学学报（社会科学版）,2024,26(2):184-192.
7洪海蓝,李文林,杨涛,李玥,梅文静.基于知识图谱的海洋中药智能问答系统的设计与实现[J].世界科学技术-中医药现代化,2023(6):1935-1941. 被引量：5
8曹树金,曹茹烨,李睿婧.数智时代的知识组织研究进展[J].情报学进展,2024(1):318-347.
9耿国桐,卢胜军,雷帅,汤珊红,赵柯然,杨湘云.人工智能赋能情报研究的变革与发展[J].情报学进展,2024(1):278-317.
10邱均平,徐中阳.数据计量学的学科构建及其发展趋势[J].情报学进展,2024(1):1-40.

同被引文献46

1熊回香,黄晓捷,肖兵,王妞妞.在线学术资源中基于时序知识图谱的学者推荐研究[J].情报科学,2022,40(8):3-10. 被引量：1
2魏志鹏,杨克虎.循证社会科学视角下的新文科建设路径研究[J].兰州大学学报（社会科学版）,2021(1):142-150. 被引量：29
3王羡慧,覃征,庄春晓,张选平.基于差异特征协同语义标注的三维模型检索方法[J].计算机辅助设计与图形学学报,2011,23(1):152-160. 被引量：5
4蒋永福.图书馆与知识组织——从知识组织的角度理解图书馆学[J].中国图书馆学报,1999,25(5):19-23. 被引量：149
5晏露蓉,黄清海.侨批:中国信用文化之珍品[J].征信,2013,31(10):1-5. 被引量：9
6刘志国,刘丹,吴倩.隐性知识:图书馆知识服务的理论基础与行为范式[J].图书馆杂志,2015,34(11):41-45. 被引量：25
7刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：1028
8刘炜,林海青,夏翠娟.数字人文研究的图书馆学方法:书目控制与文献循证[J].大学图书馆学报,2018,36(5):116-123. 被引量：44
9单良,刘欣.基于中国历史人物知识的智能问答系统构建[J].情报探索,2019,0(6):101-105. 被引量：9
10胡少东,江丽枝.文化信念、声誉机制与侨批网络治理[J].华侨大学学报（哲学社会科学版）,2019(4):104-116. 被引量：5

引证文献3

1李海涛,王丹霞,宋琳琳.侨批档案文献诚信文化事件的知识发现探析[J].档案学刊,2024(4):1-12.
2李子烨,纪雪梅,王浩.文献循证视域下科学证据图谱构建研究——以碳减排领域文献为例[J].情报理论与实践,2025,48(2):178-187.
3岳文玉,曹树金,曹茹烨,赵怡珑.基于深度学习的中共党史知识图谱构建[J].图书馆论坛,2025,45(2):22-34.

二级引证文献1

1岳文玉,曹树金,赵怡珑.基于知识图谱的中共党史知识索引设计与实现[J].图书馆论坛,2025,45(3):110-119.

1陶晓萌,曾雁冰,韩优莉,高广颖,孙力光.基于北京市老年人医保满意度调查的医疗保障高质量发展研究[J].中国医疗保险,2023(5):116-123. 被引量：2
2王秋虹,庞浡仚,魏军平.中医药治疗Graves病的临床研究进展[J].医学综述,2023,29(7):1409-1413.
3张伟男,刘挺.ChatGPT技术解析及通用人工智能发展展望[J].中国科学基金,2023,37(5):751-757. 被引量：17
4王浩颐,孟国平,李丰辉,常振,李建晔,韩文彬.渤海油田聚驱用高线形聚合物的评价与应用[J].精细石油化工,2023,40(6):1-4. 被引量：2
5张佳雪.国外方言态度研究现状与热点分析--基于CiteSpace可视化研究[J].现代商贸工业,2023,44(19):58-60.
6张耀丹.水利系统人事档案管理的制度设计与规范化研究[J].中文科技期刊数据库（全文版）社会科学,2023(12):61-64.
7杜裕川.小学生命教育的现实困境与突破路径探究[J].新智慧,2023(19):56-58.
8陈诗乐,黄浩文,谢广华,陈忠明.聚苯胺基复合热电材料研究进展[J].湘潭大学学报（自然科学版）,2023,45(5):65-75. 被引量：2
9李启萌,刘一凡,石云,李一辰,王佳蓉,牛家禾,安丰平.宁夏南部水土流失重点治理区梯田信息提取研究[J].测绘与空间地理信息,2023,46(10):54-57.
10李妙钰,王弋波,王政,魏超,曹悦.面向事件本体时空特征的可视化方法研究——以实验动物领域研究人员社交媒体事件为例[J].科技成果管理与研究,2023(10):47-55.

现代情报

2023年第12期

浏览历史

内容加载中请稍等...

科学文献中的知识实体抽取与评价研究综述被引量：3

参考文献57

二级参考文献725

共引文献683

同被引文献46

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

科学文献中的知识实体抽取与评价研究综述 被引量：3

参考文献57

二级参考文献725

共引文献683

同被引文献46

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

科学文献中的知识实体抽取与评价研究综述被引量：3