基于语料库的高频最大交集型歧义字段考察被引量：6

Corpus Based Investigation on High Frequent Maximal Overlapping Ambiguity String in Chinese Word Segmentation

在线阅读下载PDF

导出

摘要交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。 Overlapping ambiguity is still an open issue in Chinese word segmentation. This paper makes a deep investigation on Maximal Overlapping Ambiguity String （MOAS）. First, we discuss the disadvantage of using FBMM to detect OAS. Then, by word omni-segmentafion, we collect 14906 high frequent MOASs from People＇s Daily corpus which contains about 400M characters. For these MOASs, 1354270 sample sentences are randomly selected and manually labeled. The results show that about 70% of MOASs with true ambiguity have a strong bias towards one segmentation, and consequently, a disambiguation strategy fon dealing with overlapping ambiguities is put forward.

作者李斌陈小荷方芳徐艳华

机构地区南京师范大学文学院

出处《中文信息学报》 CSCD 北大核心 2006年第1期1-6,共6页 Journal of Chinese Information Processing

基金南京师范大学211资助项目(1240702504)

关键词计算机应用中文信息处理最大交集型歧义字段全切分强势切分 computer application Chinese information processing maximal overlapping ambiguity siring word omni-segmentation biased segmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Mu Li,Jianfeng Gao, Changning Huang et al. Unsupervised Training for Overlapping Ambiguity Resolution in Chinese Word Segmentation[A]. In: Proceedings of the Second SIGHAN Workshop on Chinese Language Processing[C]. Sapporo, Japan, 2003.
2陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报（社会科学版）,2004(6):109-113. 被引量：7
3戴新宇.[D].南京大学,2004.
4梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
5刘挺.歧义字段的最大概率切分算法[A]..语言工程[C].北京:清华大学出版社,1997.182-187.
6孙茂松左正平.汉语真实文本中的交集型切分歧义[A]..汉语计量与计算研究[C].香港:香港城市大学出版社,1998.323-338.
7孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51

二级参考文献7

1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
2孙茂松邹嘉彦等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
3[6]Christopher D. Manning, Hinrich Schütze. Foundations of Statistical Natural Language Processing. London: The MIT Press. 1999.
4孙茂松，汉语计量与计算研究，1998年
5刘开瑛，语言文字应用，1997年，1期
6梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
7孙茂松,左正平,黄昌宁.消解中文三字长交集型分词歧义的算法[J].清华大学学报（自然科学版）,1999,39(5):101-103. 被引量：22

共引文献93

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：20
2曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
3曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
4苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
7李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
8刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
9陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报（社会科学版）,2004(6):109-113. 被引量：7
10马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4

同被引文献105

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
4王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：16
5张克亮.基于HNC理论的句法结构歧义消解[J].中文信息学报,2004,18(6):43-52. 被引量：9
6陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报（社会科学版）,2004(6):109-113. 被引量：7
7全昌勤,何婷婷,姬东鸿,刘辉.从搭配知识获取最优种子的词义消歧方法[J].中文信息学报,2005,19(1):30-35. 被引量：13
8刘蓓,杜利民.汉语口语对话系统中语义分析的消歧策略[J].中文信息学报,2005,19(1):76-83. 被引量：3
9杨莹,李应潭.基于意象知识的消歧体系[J].中文信息学报,1993,7(1):40-47. 被引量：1
10钱树人.歧义、系统歧义和语境[J].中文信息学报,1993,7(2):18-26. 被引量：7

引证文献6

1章成志,苏新宁.面向信息检索的排除词识别研究[J].现代图书情报技术,2007(2):44-48.
2乔维,孙茂松.汉语交集型歧义切分字段关于专业领域的统计特性[J].中文信息学报,2008,22(4):10-18. 被引量：3
3刘健,张维明.一种快速的交集型歧义检测方法[J].计算机应用研究,2008,25(11):3259-3261. 被引量：3
4张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
5王丹,杨晓蓉.自动标引中的歧义词消除方法研究[J].图书情报工作,2014,58(5):93-97. 被引量：5
6熊桂喜,李政.基于规则和语料库的中文姓名识别研究[J].计算机与信息技术,2007(12):47-49.

二级引证文献15

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：47
2徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
3张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
4木合亚提·尼亚孜别克,古力沙吾利·塔里甫,古丽拉·阿东别克.哈萨克语NP和VP结构的歧义类型与消除策略研究[J].西南师范大学学报（自然科学版）,2014,39(7):41-46.
5王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
6杜家利,于屏方.花园幽径现象理解折返性的数据结构分析[J].中文信息学报,2015,29(1):28-37. 被引量：2
7黄鹏,张姝,陈玉华,文斌.一种基于无监督学习的交集型歧义处理改进方法[J].云南师范大学学报（自然科学版）,2015,35(6):45-49. 被引量：1
8王丹,杨晓蓉,马健.基于自动标引的自然语言检索方法研究[J].图书馆杂志,2016,35(6):66-72. 被引量：1
9胡俊杰,袁华,李飞,陈海龙.中文句子阅读过程中词边界确认机制研究现状及展望[J].通化师范学院学报,2016,37(7):59-64.
10尹倩.基于语境信息的中文分词交叉歧义处理方法[J].重庆工商大学学报（自然科学版）,2016,33(5):20-24. 被引量：3

1郭池,陈家骏,王启祥.一种基于语料库的词义消歧策略[J].计算机工程与应用,2003,39(35):33-36. 被引量：4
2银伟,胡湘江,朱培栋.多源AS冲突问题研究与MOAS LIST机制实现[J].计算机工程与设计,2008,29(8):1910-1912.
3宁凡旭,刘振山,王春铭.基于Traceroute的IPv6自治域间网络拓扑发现技术研究[J].信息工程大学学报,2006,7(4):348-350. 被引量：2
4宋传杰,丁兆迎,董继润.基于大型计算机系统的办公室应用支持环境[J].软件学报,1994,5(9):49-55. 被引量：1
5唐才智,张敏灵.基于一致性假设的偏标记学习算法[J].模式识别与人工智能,2016,29(12):1140-1146.
6谭红叶,赵铁军.一种基于软模式的语义类发现方法[J].哈尔滨工业大学学报,2007,39(11):1776-1779.
7朱聪慧,赵铁军,郑德权.基于无向图序列标注模型的中文分词词性标注一体化系统[J].电子与信息学报,2010,32(3):700-704. 被引量：12
8段慧明,松井久仁於,徐国伟,胡国昕,俞士汶.大规模汉语标注语料库的制作与使用[J].语言文字应用,2000(2):72-77. 被引量：20
9冯素琴,陈惠明.利用上下文信息解决汉语组合型歧义[J].电脑开发与应用,2007,20(1):23-25. 被引量：1
10鲁强,金伟祖.基于FMM和CRFs双层分词模型的研究[J].电脑知识与技术,2008(10):166-168. 被引量：1

中文信息学报

2006年第1期

浏览历史

内容加载中请稍等...

基于语料库的高频最大交集型歧义字段考察被引量：6

参考文献7

二级参考文献7

共引文献93

同被引文献105

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于语料库的高频最大交集型歧义字段考察 被引量：6

参考文献7

二级参考文献7

共引文献93

同被引文献105

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于语料库的高频最大交集型歧义字段考察被引量：6