-
题名一个无需词典支持和切词处理的中文文档分类系统
被引量:23
- 1
-
-
作者
周水庚
关佶红
胡运发
周傲英
-
机构
武汉大学软件工程国家重点实验室
武汉大学计算机学院
复旦大学计算机科学与工程系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第7期839-844,共6页
-
基金
中国博士后科学基金
国家"八六三"高技术研究发展计划基金项目(86 3-30 6 -ZT0 4-0 2 -2 )
国家自然科学基金 (6 0 0 0 30 16 )的
-
文摘
报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统易于功能扩充和性能完善 .测试结果表明该系统具有令人满意的分类性能 .
-
关键词
中文文档分类系统
词典支持
切词处理
中文信息处理
INTERNET
-
Keywords
Chinese text categorization, N gram information, feature selection, Bayesian classification, k NN method
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Ngram信息的中文文档分类研究
被引量:23
- 2
-
-
作者
周水庚
关佶红
俞红奇
胡运发
-
机构
复旦大学计算机系
武汉大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2001年第1期34-39,共6页
-
基金
国家自然科学基金! ( 6993 30 10 )
国家 863计划 !( 863 -3 0 6-ZT0 4 -0 2 -2 )
-
文摘
传统文档分类系统都是基于文档的词属性 ,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N gram信息的中文文档分类 ,使中文文档分类系统摆脱对词典和切词处理的依赖 ,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法 ,实现了一个基于N gram信息的中文文档分类系统。
-
关键词
N-GRAM信息
属性选择
KNN法
中文文档分类系统
领域无关性
时间无关性
-
Keywords
in the documents,which need dictionaries support and efficient segmentation procedures.This paper explores the problem of utilizing N gram information to categorize Chinese documents so that the classifiers can shake off the burden of large di
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-