期刊导航
期刊开放获取
唐山市科学技术情报研究..
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于编辑距离的中文组织机构名简称-全称匹配算法
被引量:
14
1
作者
黄林晟
邓志鸿
+2 位作者
唐世渭
王文清
陈凌
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2012年第5期43-48,共6页
在面对中文语言环境下组织机构名简称-全称匹配这一具体问题时,经典的基于编辑距离进行字符串相似匹配方法的实用性有所下降。基于编辑距离的思想,提出了一种改进匹配算法:首先对简称和全称进行分词,以切合中文的语法结构特点;之后结合...
在面对中文语言环境下组织机构名简称-全称匹配这一具体问题时,经典的基于编辑距离进行字符串相似匹配方法的实用性有所下降。基于编辑距离的思想,提出了一种改进匹配算法:首先对简称和全称进行分词,以切合中文的语法结构特点;之后结合重定义的词汇语义相似度度量方法,修改编辑操作权重,并通过自适应学习的方式进一步修正;最后选择与简称编辑距离最小的全称作为匹配结果。实验结果表明,该算法匹配准确率比原始方法有较大提升。
展开更多
关键词
文本挖掘
机器学习
编辑距离
组织机构名
简称-全称匹配
原文传递
题名
基于编辑距离的中文组织机构名简称-全称匹配算法
被引量:
14
1
作者
黄林晟
邓志鸿
唐世渭
王文清
陈凌
机构
北京大学信息科学技术学院
北京大学信息科学技术学院机器感知与智能教育部重点实验室
中国高等教育文献保障系统(CALIS)管理中心
出处
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2012年第5期43-48,共6页
基金
国家"八六三"高技术研究发展计划基金资助项目(2009AA01Z136)
国家自然科学基金资助项目(90812001)
国家教育部"211工程"中国高等教育文献保障系统(CALIS)三期建设项目
文摘
在面对中文语言环境下组织机构名简称-全称匹配这一具体问题时,经典的基于编辑距离进行字符串相似匹配方法的实用性有所下降。基于编辑距离的思想,提出了一种改进匹配算法:首先对简称和全称进行分词,以切合中文的语法结构特点;之后结合重定义的词汇语义相似度度量方法,修改编辑操作权重,并通过自适应学习的方式进一步修正;最后选择与简称编辑距离最小的全称作为匹配结果。实验结果表明,该算法匹配准确率比原始方法有较大提升。
关键词
文本挖掘
机器学习
编辑距离
组织机构名
简称-全称匹配
Keywords
text mining
machine learning
edit distance
organization name
abbreviation
-
full name match
分类号
TP391 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于编辑距离的中文组织机构名简称-全称匹配算法
黄林晟
邓志鸿
唐世渭
王文清
陈凌
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2012
14
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部