期刊文献+

基于语料库的高频最大交集型歧义字段考察 被引量:6

Corpus Based Investigation on High Frequent Maximal Overlapping Ambiguity String in Chinese Word Segmentation
在线阅读 下载PDF
导出
摘要 交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。 Overlapping ambiguity is still an open issue in Chinese word segmentation. This paper makes a deep investigation on Maximal Overlapping Ambiguity String (MOAS). First, we discuss the disadvantage of using FBMM to detect OAS. Then, by word omni-segmentafion, we collect 14906 high frequent MOASs from People's Daily corpus which contains about 400M characters. For these MOASs, 1354270 sample sentences are randomly selected and manually labeled. The results show that about 70% of MOASs with true ambiguity have a strong bias towards one segmentation, and consequently, a disambiguation strategy fon dealing with overlapping ambiguities is put forward.
出处 《中文信息学报》 CSCD 北大核心 2006年第1期1-6,共6页 Journal of Chinese Information Processing
基金 南京师范大学211资助项目(1240702504)
关键词 计算机应用 中文信息处理 最大交集型歧义字段 全切分 强势切分 computer application Chinese information processing maximal overlapping ambiguity siring word omni-segmentation biased segmentation
  • 相关文献

参考文献7

  • 1Mu Li,Jianfeng Gao, Changning Huang et al. Unsupervised Training for Overlapping Ambiguity Resolution in Chinese Word Segmentation[A]. In: Proceedings of the Second SIGHAN Workshop on Chinese Language Processing[C]. Sapporo, Japan, 2003.
  • 2陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报(社会科学版),2004(6):109-113. 被引量:7
  • 3戴新宇.[D].南京大学,2004.
  • 4梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
  • 5刘挺.歧义字段的最大概率切分算法[A]..语言工程[C].北京:清华大学出版社,1997.182-187.
  • 6孙茂松 左正平.汉语真实文本中的交集型切分歧义[A]..汉语计量与计算研究[C].香港:香港城市大学出版社,1998.323-338.
  • 7孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量:51

二级参考文献7

  • 1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量:15
  • 2孙茂松 邹嘉彦 等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
  • 3[6]Christopher D. Manning, Hinrich Schütze. Foundations of Statistical Natural Language Processing. London: The MIT Press. 1999.
  • 4孙茂松,汉语计量与计算研究,1998年
  • 5刘开瑛,语言文字应用,1997年,1期
  • 6梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
  • 7孙茂松,左正平,黄昌宁.消解中文三字长交集型分词歧义的算法[J].清华大学学报(自然科学版),1999,39(5):101-103. 被引量:22

共引文献93

同被引文献105

引证文献6

二级引证文献15

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部