期刊文献+

一种新的用于数据挖掘工具的网页净化算法

An new algorithm of Web page purification for data mining tools
在线阅读 下载PDF
导出
摘要 为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在<table>标记和<p>标记里面,并据此对网页噪声进行预处理,然后与相关网页进行内容匹配,通过计算节点重要度,获取网页的主题内容.对门户网站的6 318个网页的检测表明,该算法可以有效地提取网页的主题内容,准确率达到98.2%以上.用于数据挖掘工具时,该算法优于其他同类算法,可以有效地去除网页噪声. In order to eliminate noise preferably and extract topic content from Web pages efficiently,an algorithm of Web page purification is presented.This algorithm argues that topic content of Web page is mainly contained in table and p,hereby Web noise can be preprocessed.Then with the content match of relevant Web page,the topic content of Web page can be acquired by way of calculating the importance of node.This algorithm has achieved very precise results,correctly extracting 98.2% of the pages in a set of 6 318 pages in portal sites.When used for data mining tools,this algorithm is better than the other similar algorithms.It can eliminate noise efficiently.
作者 孙楠 张华伟
出处 《郑州轻工业学院学报(自然科学版)》 CAS 2011年第3期85-87,91,共4页 Journal of Zhengzhou University of Light Industry:Natural Science
关键词 网页净化 网页噪声 文档对象模型 阈值 Web page purification Web noise DOM threshold
  • 相关文献

参考文献5

二级参考文献39

共引文献219

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部