基于大规模语料库的新词检测被引量：32

New Word Detection Based on Large-Scale Corpus

在线阅读下载PDF

导出

摘要自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域. New word detection is a part of unknown word detection. The development of natural languages requires us to detect new words as soon as possible. In this paper, a new approach to detect new words based on large-scale corpus is presented. It first segments the corpus from the Internet with ICTCLAS, and searches for repeated strings, and then designs different filtering mechanisms to separate the true new words from the garbage strings, using rich features of various new word patterns. While getting rid of the garbage strings, three garbage lexicons and a suffix lexicon are used, which are learned by the system, and good results are achieved. Finally, the results of the experiments are discussed, which seem to be promising.

作者崔世起刘群孟遥于浩西野文人

机构地区中国科学院计算技术研究所数字化技术研究室中国科学院研究生院中国科学院研究生院

出处《计算机研究与发展》 EI CSCD 北大核心 2006年第5期927-932,共6页 Journal of Computer Research and Development

基金国家"八六三"高技术研究发展计划基金项目(2004AA114010 2003AA111010) 中国科学院计算技术研究所和富士通研究开发中心有限公司合作项目~~

关键词新词垃圾串垃圾头垃圾尾独立词概率 new word garbage string garbage head garbage tail IWP

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1K.J.Chen,Ming-Hong Bai.Unknown word detection for Chinese by a corpus-based learning method.International Journal of Computational Linguistics and Chinese Language Processing,1998,3 (1):27～44
2K.J.Chen,W.Y.Ma.Unknown word extraction for Chinese documents.The 19th COLING 2002,Taipei,2002
3Jianfeng Gao,Mu Li,Andi Wu,et al.Chinese word segmentation:A pragmatic approach.Microsoft Research,Technical Report:MSR-TR-2004-123,2004
4Nie Jian-Yun,Wanying Jin,Mareie-Louise Hannan.A hybrid approach to unknown word detection and segmentation of Chinese.Int' 1 Conf.Chinese Computing,Singapore,1994
5Hua-Ping Zhang,Qun Liu,Hao Zhang,et al.Automatic recognition of Chinese unknown words based on roles tagging.The 1st SIGHAN Workshop on Chinese Language Processing,Taipei,2002
6郑家恒,李文花.基于构词法的网络新词自动识别初探[J].山西大学学报（自然科学版）,2002,25(2):115-119. 被引量：56
7Andi Wu,Zixin Jiang.Statistically-enhanced new word identification in a rule-based Chinese system.The 2nd Chinese Language Processing Workshop,Hong Kong,2000
8Fuchun Peng,Fangfang Feng,Andrew McCallum.Chinese segmentation and new word detection using conditional random fields.COLING 2004,Geneva,Switzerland,2004
9Min-Jer Lee,Chien-Kang Huang,Lee-Feng Chien.Automatic construction of a bilingual live dictionary for spoken language processing applications.Oriental COCOSDA99,Taipei,1999
10邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：60

二级参考文献4

1郑家恒李文花.新词语自动识别方法研究.自然语言理解与机器翻译[M].北京:清华大学出版社,2001..
2陆志苇.现代汉语构词法（修订本）[M].北京:中华书局,1975..
3Hua- Ping ZHANG, Qun LIU. et al, Chinese Name Entity Recognition Using Role Model[ J]. Special issue ''Word Formation and Chinese Language processing'' of the International Journal of Computational Linguistics and Chinese Language Processing, 2003, 8(2):2
4Craig G. Nevill - Manning, Ian H. Witten. Identifying Hierarchical Structure in Sequences: A linear - time algorithm [J]. Journal of Artificial Intelligence Research, 1997, 7:67- 82

共引文献97

1黄东平,田芳.BBS信息过滤技术研究[J].长江大学学报（自然科学版）,2004,1(1):16-18. 被引量：4
2任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
3李新福,赵杰,梁巍.基于互信息的宋史语料库词表的提取[J].河北大学学报（自然科学版）,2006,26(5):557-560. 被引量：4
4胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
5何婷婷,朱薏,张勇,任函.基于词语属性的计算机辅助获取流行词语研究[J].中文信息学报,2006,20(6):38-45. 被引量：4
6姜韶华,党延忠.自动提取含字母词语的领域新术语的研究[J].计算机工程,2007,33(2):47-49. 被引量：3
7吕学强,黄河,李渝勤,施水才.BBS中文新词语自动挖掘[J].现代图书情报技术,2007(1):37-39. 被引量：2
8胡彧,苏雪峰.特定主题的相关概念挖掘研究与实现[J].电脑开发与应用,2007,20(2):14-16. 被引量：1
9夏霙,刘功申,李翔.基于标引信息的网络新概念发现算法[J].微型电脑应用,2007,23(1):8-10.
10张榕,宋柔.一种被定义项的识别策略[J].当代语言学,2007,9(1):33-38. 被引量：4

同被引文献274

1王镝,王国仁,吴青泉,陈白尘,赵毅,毛克明.DNA序列中基于后继数组索引的LPR查找算法[J].计算机研究与发展,2006,43(z3):195-199. 被引量：4
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3彭波.搜索引擎的混合索引技术[J].计算机工程与应用,2004,40(22):16-18. 被引量：6
4刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
5林建敏,谢康林.基于PAT-array和模糊聚类的文本聚类方法[J].计算机工程,2004,30(12):126-127. 被引量：6
6李善平,尹奇韡,胡玉杰,郭鸣,付相君.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052. 被引量：277
7孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
8邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：60
9王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：16
10贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28

引证文献32

1贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
2李钝,曹元大,万月亮.Internet中的新词识别[J].北京邮电大学学报,2008,31(1):26-29. 被引量：7
3张宇萌,刘传汉.一种基于逐层扫描的频繁字串快速提取算法[J].计算机科学,2008,35(5):127-130. 被引量：1
4荆涛,左万利,孙吉贵,车海燕.中文网页语义标注：由句子到RDF表示[J].计算机研究与发展,2008,45(7):1221-1231. 被引量：31
5汪青青.现代汉语新词特征探析[J].现代语文（下旬．语言研究）,2009(7):122-123. 被引量：3
6张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：40
7吕美香,何琳,李玥,杨敏,张越.基于N-Gram文本表达的新闻领域关键词词典构建研究[J].情报科学,2010,28(4):571-574. 被引量：3
8张敏,王春红.基于统计方法的Web新词分词方法研究[J].计算机工程与科学,2010,32(5):133-135. 被引量：2
9刘兴林,陈建超,马千里.基于互联网的词汇语义知识库构建框架研究[J].计算机与现代化,2010(10):8-11. 被引量：1
10周昆,胡学钢.一种基于本体论和规则匹配的中文人名识别方法[J].微计算机信息,2010,26(31):87-89. 被引量：5

二级引证文献179

1郭崇慧,许蒙.一种基于众包模式的试题知识点标注方法[J].信息与管理研究,2019,0(6):64-72. 被引量：3
2成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
3盛泳潘,付雪峰,吴天星.基于开放域抽取的多文档概念图构建研究[J].计算机应用研究,2020,37(1):19-25. 被引量：2
4岑咏华,韩哲,季培培.基于隐马尔科夫模型的中文术语识别研究[J].现代图书情报技术,2008(12):54-58. 被引量：38
5韩艳,林煜熙,姚建民.基于统计信息的未登录词的扩展识别方法[J].中文信息学报,2009,23(3):24-30. 被引量：15
6汪青青.现代汉语新词特征探析[J].现代语文（下旬．语言研究）,2009(7):122-123. 被引量：3
7李海涛,马振华,沈文华.章回小说的有意义串发现算法[J].计算机工程与应用,2010,46(4):129-131.
8张玉峰,蔡皎洁.基于数据挖掘的Web文本语义分析与标注研究[J].情报理论与实践,2010,33(2):85-88. 被引量：7
9岑咏华,王曰芬,王晓蓉.面向企业技术创新决策的专利数据挖掘研究综述(下)[J].情报理论与实践,2010,33(2):124-128. 被引量：5
10常平梅,李冠宇,张俊.基于本体集成的语义标注模型设计[J].计算机工程与设计,2010,31(5):1125-1129. 被引量：6

1赵向军,路梅.垃圾邮件过滤算法研究[J].徐州师范大学学报（自然科学版）,2006,24(4):52-55. 被引量：1
2姚威力,陆庆文.用PROLOG实现“最小—最大”汉语词法切分[J].微型计算机,1990,10(5):41-43.
3孟庆党.颜色及其常见模式[J].多媒体世界,1997(10):26-26.
4孙彦广.智能控制技术及其工业应用[J].冶金自动化,2004,28(3):1-4. 被引量：3
5孙彦广.工业自动化中的智能技术应用[J].可编程控制器与工厂自动化（PLC FA）,2004(5):5-7.
6王洋.浅谈网络硬盘的应用及其优势以及缺点[J].电脑学习,2009(4):60-61. 被引量：6
7刘杰.浅谈数字化校园中网络硬盘的建设[J].福建电脑,2010,26(9):72-73. 被引量：3
8钟将,耿升华,董高峰.一种新词检测方法研究[J].数字通信,2013,40(2):1-5. 被引量：6
9张海军,彭成,栾静.基于外部排序的字串左右熵快速计算方法[J].计算机工程与应用,2011,47(19):18-20. 被引量：2
10韩艳,姚建民,朱巧明,张晶.不限领域的中文新词的识别研究[J].郑州大学学报（理学版）,2008,40(3):67-71. 被引量：2

计算机研究与发展

2006年第5期

浏览历史

内容加载中请稍等...

基于大规模语料库的新词检测被引量：32

参考文献10

二级参考文献4

共引文献97

同被引文献274

引证文献32

二级引证文献179

相关作者

相关机构

相关主题

浏览历史

基于大规模语料库的新词检测 被引量：32

参考文献10

二级参考文献4

共引文献97

同被引文献274

引证文献32

二级引证文献179

相关作者

相关机构

相关主题

浏览历史

基于大规模语料库的新词检测被引量：32