摘要
针对传统人工编辑导致大量类别信息重复和不规范的问题,提出了应用协同过滤技术为中文维基百科文章自动推荐类别。利用中文维基百科中的四个重要语义特征即链入、链出、链入的类别和链出的类别来表示维基百科文章,得到与目标文章相似的前若干篇文章的所有类别后,通过查询返回的相似度值计算各个类别的权重,选择前面的若干个类别作为推荐结果返回给目标文章。实验结果表明了这四个语义特征能较好地表征一篇维基百科文章,同时也验证了协同过滤方法在中文维基百科自动推荐类别中的有效性。
Collaborative filtering was applied to automatically recommend categories for a Chinese Wikipedia article. Four typical semantic features namely incoming link, outgoing link, incoming link categories and outgoing link categories, were adopted to represent articles. Among all the categories of articles similar to target article, several most similar categories were chosen as the recommendation results to the target article, via calculating the similarity value between them. The experimental results show that the four semantic features have efficient performance in Wikipedia article representation. And the collaborative filtering method is also proved to be effective in recommending proper categories for Chinese Wikipedia articles.
出处
《计算机应用》
CSCD
北大核心
2013年第3期838-840,844,共4页
journal of Computer Applications
基金
国家自然科学基金资助项目(90920005
61003192)
国家语委"十二五"重点项目(ZDI125-1)
国家"十二五"科技支撑计划项目(2012BAK24B01)
教育部/国家外国专家局高等学校学科创新引智计划项目(B07042)
湖北省自然科学基金资助项目(2011CDA034)
华中师范大学中央高校基本科研业务费专项资金资助项目(CCNU10A02009
CCNU10C01005)
关键词
协同过滤
中文维基百科
类别推荐
语义特征
collaborative filtering
Chinese Wikipedia
category recommendation
semantic feature