摘要
Web网页中往往包含许多主题噪声,准确地自动抽取关键词成为技术难点。提出了一个文本对象网络模型DON,给出了对象节点的中心度概念和基于中心度的影响因子传播规则,并据此自动聚集DON中的主题社区(topic society),从而提高了模型的抗噪能力。提出一个基于DON的网页关键词自动抽取算法KEYDON(Keywords Extraction Algorithm Based on DON)。实验结果表明,与基于DocView模型的相应算法相比,KEYDON的准确率提高了近20%,这说明DON模型具有较强的抑制主题噪声能力。
It is very hard to exactly extract keywords from hub Web pages because of its topic noise. A Document Object Network(DON) model and Keywords Extraction Algorithm Based on it (KEYDON) are proposed. The model DON clusters the topic society with the betweenness centrality and impact fraction of nodes in DON. Experiments show that the accuracy of proposed keywords extraction algorithm’s performance based on DON has increased by 20% compared with the algorithm based on DocView model.
出处
《计算机工程与应用》
CSCD
2012年第31期115-119,共5页
Computer Engineering and Applications
基金
国家自然科学基金(No.60803024)
湖南省大学生研究性学习和创新性实验计划项目(湘教通[2011]272号
编号:393)
湖南省涉外经济学院科学研究项目(湘外经院科字[2011]4号)
关键词
文本对象网络
DON
中心度
影响因子
关键词自动抽取
网页
document object network Document Object Network(DON) betweenness centrality impact fraction keywords extraction Web page