摘要
K近邻算法是基于向量空间模型的最好的文本分类算法之一。使用KNN算法时通常要用贪婪算法进行参数选择,最终的参数不仅取决于每个参数的初始值及候选值,而且和参数选择的顺序密切相关。不同的参数选择策略间存在较大差异,通过实验,指出了KNN算法进行文本分类时一个较好的参数选择策略。
KNN(K nearest neighbors) is one of the best text categorization algorithms based on Vector Space Model. Greedy Algorithm is the most common parameter selecting method for KNN,the final result depends on not only the initial parameter and the candidate parameters but also the order in the tuning process. This survey introduces a better strategy for parameter selecting in KNN by experiment.
出处
《广西师范大学学报(自然科学版)》
CAS
北大核心
2008年第1期182-185,共4页
Journal of Guangxi Normal University:Natural Science Edition
基金
国家863计划基金资助项目(2006AA01Z143,2006AA01Z139)
国家社会科学基金资助项目(07BYY051)
江苏省自然科学基金资助项目(BK2006117)
关键词
文本分类
K近邻
参数调节
贪婪算法
text categorization
KNN
parameter tuning
greedy search