规则匹配和深度学习结合的文本空间信息识别及定位被引量：6

Text Spatial Information Recognition and Location Based on Combination of Rules Matching and Deep Learning

在线阅读下载PDF

导出

摘要充分识别并空间化文本中蕴含的空间位置信息,对文本数据挖掘研究具有重要意义。由于文本中的空间信息存在描述不规范、形式多样和混杂方言等特点,识别难度大,提出一种规则匹配和深度学习相结合的空间信息识别及定位方法。首先根据标准地名地址制作匹配语义库,利用规则匹配法精准提取空间信息并实现空间定位;然后将其作为深度学习的样本数据,训练BERT-BiLSTM-CRF模型,实现空间信息的自动提取;再利用前后缀特征词匹配规则作为补充处理,进一步充分提取文本中的空间信息;最后利用地理编码技术实现空间定位。实验表明,本方法能有效提高空间信息识别的准确率、召回率,具有可操作性。 It is very important to accurately extract and spatialize the information of locations from texts,especially for the text data mining.However,the spatial information enclosed in the text often involves issues of non-standard description,diversified forms and mixed dialects,which makes it difficult to identify.This paper proposes a method on the spatial information recognition and positioning by integrating multi-rules matching scheme and deep learning approach.Firstly,the rule semantic database is constructed according to the standard toponym and address,and the rule matching method is used to extract spatial information accurately and identify the spatial location.Then,the above results is taken as the sample data of deep learning to train the BERT-BiLSTM-CRF model and implement the automatic extraction of spatial information.Next,the matching using prefix and suffix is performed as the supplement to extract the spatial information from texts.Finally,geographic coding technology is adopted to realize spatial location.Experiments show that this method can effectively improve the accuracy and recall rate of spatial information recognition,and has appropriate operability.

作者何小波罗跃金贤锋刘贤 HE Xiaobo;LUO Yue;JIN Xianfeng;LIU Xian(Chongqing Geographic Information and Remote Sensing Application Center,Chongqing 401147,China;Guizhou University of Engineering Science,Guiyang 551700,China)

机构地区重庆市地理信息和遥感应用中心贵州工程应用技术学院

出处《地理信息世界》 2020年第5期121-128,共8页 Geomatics World

基金国家重点研发计划(2018YFB0505400) 社会民生类重点研发项目(cstc2018jscx-mszdX0067)资助。

关键词文本挖掘空间信息识别地名实体识别自然语言处理地理编码 text mining spatial information extraction geographical names recognition natural language process geographic coding

分类号 TU2 [建筑科学—建筑设计及理论]

引文网络
相关文献

参考文献16

1毛曦,李琦,刘帅,朱亚杰.面向网络的空间信息提取系统研究[J].计算机科学,2012,39(B06):229-231. 被引量：1
2邬伦,刘磊,李浩然,高勇.基于条件随机场的中文地名识别方法[J].武汉大学学报（信息科学版）,2017,42(2):150-156. 被引量：47
3武惠,吕立,于碧辉.基于迁移学习和BiLSTM-CRF的中文命名实体识别[J].小型微型计算机系统,2019,40(6):1142-1147. 被引量：54
4李想,刘纪平,罗安,王勇.面向微博的灾害类事件地址提取与空间定位方法——以地震事件为例[J].测绘与空间地理信息,2018,41(4):128-131. 被引量：8
5朱丹浩,杨蕾,王东波.基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法[J].现代图书情报技术,2016(12):36-43. 被引量：22
6李林,梁星,刘骏,梁均军.智慧重庆地理编码服务平台建设与应用[J].地理信息世界,2017,24(1):107-110. 被引量：6
7余丽,陆锋,张恒才.网络文本蕴涵地理信息抽取:研究进展与展望[J].地球信息科学学报,2015,17(2):127-134. 被引量：41
8鞠久朋,张伟伟,宁建军,周国栋.CRF与规则相结合的地理空间命名实体识别[J].计算机工程,2011,37(7):210-212. 被引量：31
9杨晓东,晏立,尤慧丽.CCRF与规则相结合的中文机构名识别[J].计算机工程,2011,37(8):169-171. 被引量：6
10王克永,刘纪平,罗安,王勇.前后缀与特征词相结合的地名地址提取[J].测绘通报,2016(2):64-68. 被引量：17

二级参考文献202

1刘瑜,袁一泓,张毅.基于认知的模糊地理要素建模--以中关村为例[J].遥感学报,2008,12(2):370-377. 被引量：12
2朱建伟,王泽民.地理编码原理及其本地化解决方案[J].北京测绘,2004,18(2):24-27. 被引量：17
3王凌云,李琦,江洲.国内地理编码数据库系统开发与研究[J].计算机工程与应用,2004,40(21):167-168. 被引量：33
4王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：16
5陈细谦,迟忠先,金妮.城市地理编码系统应用与研究[J].计算机工程,2004,30(23):50-52. 被引量：30
6姜吉发.一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98. 被引量：27
7李琦,甘杰夫.数字城市空间信息与服务集成交换平台系统分析与设计[J].计算机科学,2005,32(9):123-126. 被引量：8
8向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
9乐小虬,杨崇俊,刘冬林.空间命名实体的识别[J].计算机工程,2005,31(20):49-50. 被引量：7
10赵健,王晓龙,关毅.中文名实体识别中的特征组合与特征融合的比较[J].计算机应用,2005,25(11):2647-2649. 被引量：7

共引文献383

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2梁鸿翔,余辉,颉明明,张博羿.面向刑事案件情节判定的知识库构建技术[J].数据通信,2020(6):35-40. 被引量：1
3步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
4成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
5王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.
6亢孟军,曹浩杰,苏世亮,翁敏,王明军.一种优化的自然语言空间查询转换模型[J].测绘科学,2022,47(7):194-200. 被引量：1
7蔡华利,刘鲁,李红.基于规则推理的突发事件发生地点识别研究[J].情报学报,2011,30(2):219-224. 被引量：8
8李玉森,张雪英,袁正午.面向GIS的地理命名实体识别研究[J].重庆邮电大学学报（自然科学版）,2008,20(6):719-724. 被引量：10
9肖磊.《左传》地名研究初探[J].文教资料,2009(18):204-207. 被引量：4
10高国洋,戚银城,潘德锋.基于条件随机场与规则相结合的中文地名识别[J].电脑开发与应用,2009,22(8):26-28. 被引量：2

同被引文献70

1王卫星.论南京国际安全区的成立[J].民国档案,2005(4):101-108. 被引量：8
2张淼.遥感技术在地震灾害监测与救灾减灾中的应用[J].科技资讯,2008,6(35):89-90. 被引量：5
3鲁超,刘清.结合地理信息的引文分析研究现状[J].情报科学,2011,29(2):303-307. 被引量：3
4陈六嘉.遥感地震监测应用综述[J].遥感信息,2012,34(1):105-109. 被引量：5
5王雪梅,李新,马明国,张志强.青藏高原科研文献地理信息空间分析研究[J].地球科学进展,2012,27(11):1288-1294. 被引量：15
6王雪梅,李新,张志强,马明国.文献计量指标的GIS空间展现[J].图书情报工作,2014,58(3):72-77. 被引量：14
7陈刚.“数字人文”与历史地理信息化研究[J].南京社会科学,2014(3):136-142. 被引量：56
8郑玉昆,李丹,范臻,刘奕群,张敏,马少平.T-Reader:一种基于自注意力机制的多任务深度阅读理解模型[J].中文信息学报,2018,32(11):128-134. 被引量：8
9余丽,陆锋,张恒才.网络文本蕴涵地理信息抽取:研究进展与展望[J].地球信息科学学报,2015,17(2):127-134. 被引量：41
10李培峰,周国栋,朱巧明.基于语义的中文事件触发词抽取联合模型[J].软件学报,2016,27(2):280-294. 被引量：36

引证文献6

1王莎莎.教育语言学下思想政治理论课打开“文本空间”的思考[J].中学政治教学参考,2021(24):90-93.
2曹艳琴.基于深度学习的英语自然语言处理系统[J].系统仿真技术,2021,17(4):285-288. 被引量：1
3石莜迪,王闯.基于文献地名提取的地震卫星遥感研究热点区域分析[J].情报探索,2021(7):95-100.
4魏鑫,何小海,滕奇志,卿粼波,陈洪刚.基于BERT-BiLSTM-Attention混合模型的事件抽取方法[J].计算机与现代化,2023(4):26-31.
5刘啸婵,丁宗玮,戴煜炜,刘晓川.中文地名地址匹配方法综述[J].测绘与空间地理信息,2023,46(9):64-67. 被引量：4
6赵小萱,陈刚,黄紫荆.基于条件随机场挖掘文本史料中事件信息的方法与实证研究——以《拉贝日记》数字人文研究为例[J].图书馆杂志,2024,43(3):101-108. 被引量：3

二级引证文献8

1宋先知,朱硕,李根生,曾义金,郭慧娟,胡志坚.基于BP-LSTM双输入网络的大钩载荷与转盘扭矩预测[J].中国石油大学学报（自然科学版）,2022,46(2):76-84. 被引量：11
2雷水旺.数字人文环境下图书馆角色与发展路径研究[J].大学图书情报学刊,2024,42(4):65-72.
3张建广,徐鲲,董鉥涛,刘迪,王向上,李春林.基于ElasticSearch的输变电工程全文检索研究[J].黑龙江科学,2024,15(16):94-97.
4陈宇.知识图谱在地址资源服务中的应用研究[J].中国安防,2024(11):6-11.
5刘嘉龙,宋宁远,裴雷,胡志伟.数字人文视阈下的历史研究线索挖掘与应用[J].图书馆论坛,2024,44(12):111-120.
6刘演志,张珊珊,曾志镒.一种基于地理空间的经济普查新模式——以广州第五次全国经济普查为例[J].地矿测绘,2024,40(4):29-32.
7张滋荷,黄体杨.聂耳走上革命道路的情感历程识别与分析——以日记和书信为中心[J].数字人文研究,2024,4(3):88-103.
8潘俊钳,阮浩德,徐可,李楚淮.一种基于多源异构空间规划数据的融合方法[J].测绘通报,2025(1):127-132.

1黄钢,瞿伟斌,许卉莹.基于改进密度聚类算法的交通事故地点聚类研究[J].交通运输系统工程与信息,2020,20(5):169-176. 被引量：16
2肖媛媛.元小说叙事策略在韩少功作品中的张力——以《第四十三页》为例[J].美与时代（美学）（下）,2020(8):73-75. 被引量：1
3陈玉,王煜,戴凌全.水轮机模型综合特性曲线数值处理方法研究[J].水资源与水工程学报,2020,31(3):155-161. 被引量：2
4宋学达.“七宝楼台”如何筑成:论梦窗词的文本空间构造手法[J].中国韵文学刊,2020,34(3):71-78.
5杨金显,王蒙蒙,刘益朋,王亚平,李明奇.基于MEMS惯性测量的输电导线振动损伤分析[J].振动与冲击,2020,39(17):261-267. 被引量：5
6我校6项国家自然科学基金项目、3项国家社科基金项目获资助立项[J].上海第二工业大学学报,2020,37(3):199-199.

地理信息世界

2020年第5期

浏览历史

内容加载中请稍等...

规则匹配和深度学习结合的文本空间信息识别及定位被引量：6

参考文献16

二级参考文献202

共引文献383

同被引文献70

引证文献6

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

规则匹配和深度学习结合的文本空间信息识别及定位 被引量：6

参考文献16

二级参考文献202

共引文献383

同被引文献70

引证文献6

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

规则匹配和深度学习结合的文本空间信息识别及定位被引量：6