古汉语通假字资源库的构建及应用研究被引量：2

Ancient Chinese Language Resource on Tongjiazi:Construction and Application

在线阅读下载PDF

导出

摘要古籍文本中的文字通假现象较为常见,这不仅为人理解文意造成了困难,也是古汉语信息处理面临的一项重要挑战。为了服务于通假字的人工判别和机器处理,该文构建并开源了一个多维度的通假字资源库,包括语料库、知识库和评测数据集三个子库。其中,语料库收录11000余条包含通假现象详细标注的语料;知识库以汉字为节点,通假和形声关系为边,从字音、字形、字义多个角度对通假字与正字的属性进行加工,共包含4185个字节点和8350对关联信息;评测数据集面向古汉语信息处理需求,支持通假字检测和正字识别两个子任务的评测,收录评测数据19678条。在此基础上,该文搭建了通假字自动识别的系列基线模型,并结合实验结果分析了影响通假字自动识别的因素与改进方法。进一步地,该文探讨了该资源库在古籍整理、人文研究和文言文教学中的应用。 In ancient Chinese texts,it is common to use Tongjiazi,i.e.characters with the same sound or similar sounds instead of the original characters.To facilitate the manual analysis and machine processing of Tongjiazi,this paper builds a multi-dimensional resource for Tongjiazi,including three sub-datasets of the corpus,the knowledge base and the evaluation dataset.The corpus contains more than 11000 sentences with detailed annotations of Tongjia usages.The knowledge base is presented in graph data with 4185 characters as the nodes and 8350 edges describing relations of pronunciation,glyph and meaning.The evaluation dataset includes testing data of 19678 entries for two subtasks:Tongjiazi detection and the original character identification.This paper also builds a series of baseline models for the automatic recognition of Tongjiazi and analyzes the factors affecting the performance.

作者王兆基张诗睿胡韧奋张学涛 WANG Zhaoji;ZHANG Shirui;HU Renfen;ZHANG Xuetao(School of International Chinese Language Education,Beijing Normal University,Beijing 100875,China)

机构地区北京师范大学国际中文教育学院

出处《中文信息学报》 CSCD 北大核心 2024年第3期152-162,共11页 Journal of Chinese Information Processing

基金国家语委重大项目(ZDA145-9) 国家自然科学基金(62006021) 北京市社会科学重点项目(21DTR037) “古文字与中华文明传承发展工程”规划项目(G1930)。

关键词古代汉语资源库通假字自动识别 ancient Chinese resource database Tongjiazi automatic recognition

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1钱玄.秦汉帛书简牍中的通借字[J].南京师大学报（社会科学版）,1980(3):44-48. 被引量：26
2由明智.谈人教版中学语文教材的通假字注释[J].课程．教材．教法,2013,33(9):46-50. 被引量：5
3张儒.关于竹书、帛书通假字的考察[J].山西大学学报（哲学社会科学版）,1988,11(2):37-43. 被引量：7
4党怀兴.通假成因说略[J].陕西师范大学学报（哲学社会科学版）,1998,27(1):61-65. 被引量：10
5孙建伟.假借和通假研究综论[J].宁夏大学学报（人文社会科学版）,2015,37(2):29-33. 被引量：8
6柳建钰,周晓文.计算机辅助古籍版本校勘资源库建设浅议[J].图书馆理论与实践,2017,0(3):54-58. 被引量：9
7邓三鸿,胡昊天,王昊,王东波.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(1):1-20. 被引量：28
8胡韧奋,李绅,诸雨辰.基于深层语言模型的古汉语知识表示及自动断句研究[J].中文信息学报,2021,35(4):8-15. 被引量：19
9苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：16
10舒蕾,郭懿鸾,王慧萍,张学涛,胡韧奋.古汉语词义标注语料库的构建及应用研究[J].中文信息学报,2022,36(5):21-30. 被引量：5

二级参考文献87

1俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：19
2程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：25
3董淑平.浅论中国古代法律思想对现代法治的作用[J].法制博览,2019,0(36):247-248. 被引量：2
4刘延玲.近五十年来异体字研究与整理状况综述(上)[J].辞书研究,2001(5):35-44. 被引量：17
5李艳霞.对外汉语形声字教学之我见[J].安阳师范学院学报,2012(3):132-135. 被引量：3
6万业馨.略论形声字声旁与对外汉字教学[J].世界汉语教学,2000,14(1):62-69. 被引量：61
7王小宁.从形声字声旁的表音度看现代汉字的性质[J].清华大学学报（哲学社会科学版）,1999,14(1):68-71. 被引量：6
8蒋礼鸿.说“通”[J].辞书研究,1980(1):47-52. 被引量：2
9王力.“本”和“通”[J].辞书研究,1980(1):50-51. 被引量：5
10张双棣.论假借[J].辞书研究,1980(2):181-192. 被引量：5

共引文献118

1雷珏莹,侯西龙,王晓光.数智时代古籍数字化再造的逻辑与进路[J].数字人文研究,2022,2(2):46-56. 被引量：28
2张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170. 被引量：1
3李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：6
4苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：16
5陈正正.中古汉文佛经字形与音义关系考辨二组[J].汉语史学报,2023(1):226-230.
6周玉秀.古声不分清浊说[J].西北师大学报（社会科学版）,1993,30(6):22-27. 被引量：1
7万业馨.略论形声字与汉字表意性[J].江苏师范大学学报（哲学社会科学版）,1992,32(4):89-93. 被引量：2
8赵振铎.字的通假义[J].辞书研究,1991(1):67-76. 被引量：1
9陈文杰.睡虎地秦墓竹简通假字略论[J].齐鲁师范学院学报,1999,25(1):90-94. 被引量：4
10由墨林.说“菽”与“豆”——从音韵学探究“豆”的演变[J].神州,2014(15):123-123. 被引量：2

同被引文献11

1罗积勇.典故的典面研究[J].湖北师范学院学报（哲学社会科学版）,2005,25(4):34-37. 被引量：9
2贾齐华.典故研究三题[J].郑州大学学报（哲学社会科学版）,2008,41(5):121-124. 被引量：10
3姚蕊.基于典故领域本体的诗词用典自动分析系统[J].软件导刊,2011,10(6):80-82. 被引量：2
4王东波,黄水清,何琳.基于多特征知识的先秦典籍词性自动标注研究[J].图书情报工作,2017,61(12):64-70. 被引量：22
5苏天运,徐雯.论典故词典面的生成[J].齐齐哈尔大学学报（哲学社会科学版）,2018(12):108-110. 被引量：1
6王军.从人文计算到可视化——数字人文的发展脉络梳理[J].文艺理论与批评,2020(2):18-23. 被引量：44
7胡韧奋,李绅,诸雨辰.基于深层语言模型的古汉语知识表示及自动断句研究[J].中文信息学报,2021,35(4):8-15. 被引量：19
8盛一涵,田雨娇.历史语言学的数字成像:“古音小镜”网站——兼议数字人文项目生长路径[J].数字人文研究,2022,2(1):86-99. 被引量：4
9舒蕾,郭懿鸾,王慧萍,张学涛,胡韧奋.古汉语词义标注语料库的构建及应用研究[J].中文信息学报,2022,36(5):21-30. 被引量：5
10蔡竹娟,赵丹群.引文分析视角下的中国古诗词用典问题初探[J].图书情报工作,2022,66(20):82-92. 被引量：2

引证文献2

1郑樑,程少轩.出土文献韵文数据的可视化呈现——以简帛方术文献为例[J].中国语言战略,2024,11(2):24-36.
2莫凯洁,丘子靓,胡韧奋,王予沛.古汉语典故资源库的构建及应用研究[J].中文信息学报,2024,38(11):27-34.

1张绍玲.大数据时代的党校档案信息化建设研究[J].中关村,2024(3):112-113.
2谌金凤.优质护理在高血压脑出血患者健康教育中的实施探析[J].中文科技期刊数据库（文摘版）医药卫生,2024(2):0170-0173.
3叶雷.信息技术对企业档案管理的影响和对策探讨[J].中文科技期刊数据库（文摘版）社会科学,2024(3):0150-0153.
4张雪薇,郑琳琳,吴珊红,贾雪艳,王艳,裴飞.俞募配穴结合六字诀训练治疗脑卒中后构音障碍的临床观察[J].中国康复,2024,39(3):146-149. 被引量：2
5张馨,李欢欢.耳穴埋豆改善高龄气虚便秘的临床护理观察分析[J].中文科技期刊数据库（引文版）医药卫生,2024(2):0189-0192.
6刘涛.“诗言志”字源学研究辨证[J].江海学刊,2024(2):246-254.

中文信息学报

2024年第3期

浏览历史

内容加载中请稍等...

古汉语通假字资源库的构建及应用研究被引量：2

参考文献11

二级参考文献87

共引文献118

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

古汉语通假字资源库的构建及应用研究 被引量：2

参考文献11

二级参考文献87

共引文献118

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

古汉语通假字资源库的构建及应用研究被引量：2