一种新的用于数据挖掘工具的网页净化算法

An new algorithm of Web page purification for data mining tools

在线阅读下载PDF

导出

摘要为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在<table>标记和<p>标记里面,并据此对网页噪声进行预处理,然后与相关网页进行内容匹配,通过计算节点重要度,获取网页的主题内容.对门户网站的6 318个网页的检测表明,该算法可以有效地提取网页的主题内容,准确率达到98.2%以上.用于数据挖掘工具时,该算法优于其他同类算法,可以有效地去除网页噪声. In order to eliminate noise preferably and extract topic content from Web pages efficiently,an algorithm of Web page purification is presented.This algorithm argues that topic content of Web page is mainly contained in table and p,hereby Web noise can be preprocessed.Then with the content match of relevant Web page,the topic content of Web page can be acquired by way of calculating the importance of node.This algorithm has achieved very precise results,correctly extracting 98.2% of the pages in a set of 6 318 pages in portal sites.When used for data mining tools,this algorithm is better than the other similar algorithms.It can eliminate noise efficiently.

作者孙楠张华伟

机构地区河南财经政法大学计算机与信息工程学院

出处《郑州轻工业学院学报（自然科学版）》 CAS 2011年第3期85-87,91,共4页 Journal of Zhengzhou University of Light Industry:Natural Science

关键词网页净化网页噪声文档对象模型阈值 Web page purification Web noise DOM threshold

分类号 TP393.08 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
2邱江涛,唐常杰,李川,朱军.基于块分布的新闻网页内容提取[J].吉林大学学报（工学版）,2009,39(5):1326-1330. 被引量：4
3陈治昂,周知予,李大学.一种基于模板的快速网页文本自动抽取算法[J].计算机应用研究,2009,26(7):2646-2649. 被引量：11
4王实,高文,李锦涛.Web数据挖掘[J].计算机科学,2000,27(4):28-31. 被引量：120
5王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81

二级参考文献39

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：22
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
6吕铁强,于满泉,孟庆发,周立德.基于网页分块的个性化信息采集的研究与设计[J].微电子学与计算机,2005,22(10):120-123. 被引量：10
7MYLLYMAKI J. Effective Web data extraction with standard XML technologies [ J ]. Computer Network,2002,39 ( 5 ) :635- 644.
8HORS A L, HEGARET P L, WOOD L, et al. Document object model (DOM) level 2 core specification, World Wide Web Consortium (W3C) [ EB/OL]. (2000-11-13) [2008-08-01 ]. http://www.w3. org/TR/2000/REC-DOM-Level-2 -Core.
9CRESCENZI V, MECCA G, MERIALDO P. RoadRunner: automatic data extraction from data-intensive Web sites[ C ]//Proc of ACM SIGMOD International Conference on Management of Data. New York: ACM Press,2002:624.
10ARASU A, GARCIA-MOLINA H. Extracting structured data from Web pages [ R ]. Palo Alto, California : Stanford University,2002.

共引文献219

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2陈尧妃,倪应华,陈焕通.基于XML的Web挖掘框架设计[J].仪器仪表学报,2006,27(z3):2613-2614. 被引量：1
3许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1
4覃晓群,陈晔.数据挖掘应用浅析[J].科技资讯,2007,5(7):93-94.
5周涛,李军,陆惠玲.WEB数据挖掘技术研究[J].汉中师范学院学报,2004,22(3):86-90. 被引量：1
6杨利,王关祥.谈山东农业大学图书馆电子阅览室的建设[J].科技情报开发与经济,2004,14(8):33-35.
7卢咏,卢云.基于WEB日志挖掘的旅游信息资源网站个性化研究[J].长沙铁道学院学报（社会科学版）,2007,8(4):162-163.
8周剑.信息分析的TRAIG方法[J].情报学报,2004,23(3):372-376.
9王关祥,聂兵.谈我校图书馆电子阅览室“一卡通”的建设与管理[J].农业图书情报学刊,2004,16(10):96-99. 被引量：3
10李泽文.基于Web的数据挖掘技术[J].现代计算机,2004,10(7):29-33. 被引量：10

1李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853-859. 被引量：4
2殷兰芳,吴舒辞,黄华军.融合网页噪声和n-gram的钓鱼网站检测算法[J].网络安全技术与应用,2015(1):85-86.
3丁宝琼,谢远平,吴琼.基于改进DOM树的网页去噪声方法[J].计算机应用,2009,29(B06):175-177. 被引量：6
4李媛媛,蒋楠.浅谈一种基于过程本体的语义检索方法[J].数字技术与应用,2014,32(9):47-47. 被引量：1
5张彦超,刘云,李勇,沈波.基于自动生成模板的Web信息抽取技术[J].北京交通大学学报,2009,33(5):40-45. 被引量：13
6SSBD.自动匹配内容调整[J].电脑高手,2002(3):89-89.
7龚德良,程杰仁,王鲁达,吕明娥,刘平.基于报文头与报文内容的入侵检测分析方法[J].湘南学院学报,2011,32(5):46-50.
8陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
9宋睿华,马少平,陈刚,李景阳.一种提高中文搜索引擎检索质量的HTML解析方法[J].中文信息学报,2003,17(4):19-26. 被引量：20
10李刚,薛一波,汪东升.一个千兆网络入侵防御系统的设计与实现[J].小型微型计算机系统,2006,27(11):2025-2029. 被引量：2

郑州轻工业学院学报（自然科学版）

2011年第3期

浏览历史

内容加载中请稍等...

一种新的用于数据挖掘工具的网页净化算法

参考文献5

二级参考文献39

共引文献219

相关作者

相关机构

相关主题

浏览历史