基于超链接和标记文本的信息检索算法被引量：7

Information-Retrtieval Algorithm Based on Hyperlinks and Anchors

在线阅读下载PDF

导出

摘要在 HITS超链接主题查找算法的基础上提出了一种检索改进算法 .该算法首先通过网页之间的链接关系计算出每一网页的出度值和入度值 ,并将查询条件与超链接上的标记文本或网页全文内容进行相似度匹配 ,得出每一网页的权值 ,综合权值与出度或入度值 ,将检索结果进行排序输出 .实验结果表明 ,与 HITS、TF* IDF算法相比。 In this paper, a new algorithm for information retrieval is proposed based on HITS .In this new algorithm, Hub and Authority values are firstly calculated from the links between the web pages, and the relevant weight of each page is gained by matching link anchor or document content with query, and then rank the retrieved results according to weight and hub or authority. The experiment result shows that compared with HITS and TF*IDF, the new algorithm for IR possesses higher precision under the condition of same recall.

作者钟敏娟林亚平陈治平

机构地区江西科技师范学院数学与计算机科学系湖南大学计算机与通信学院

出处《小型微型计算机系统》 CSCD 北大核心 2004年第7期1344-1347,共4页 Journal of Chinese Computer Systems

基金国家自然科学基金 (60 2 72 0 5 1)资助

关键词 HITS 网页入度网页出度标记文本 HITS algorithm authority hub anchor

分类号 TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
2[2]Salton G, Wong A and Yang C S. On the specification of term values in automatic indexing[J]. Journalof Documentation.1973,29(4):351-372.
3[3]Michal Cutler,Shi Yun-ming, Meng Wei-yi. Using the structure of HTML documents to improve retrieval[C]. USENIX Symposium on Internet Technologies and Systems (NSITS97).241-251,Monterey,California,December 1997
4刘芳,卢正鼎.有效地检索HTML文档[J].小型微型计算机系统,2000,21(9):986-988. 被引量：23
5[5]Filippo Menczer, Gautam Pant, Padmini Srinivasan. Evaluating topic driven web crawlers[C]. Proc. of 24th international ACM SIGIR conference on Research and Development in Information retrieval, 2001,241-249.
6[6]Kleinberg J. Authoritative sources in a hyperlinked enviroment[J]. Journal of ACM (JASM),1999,46(5):604-632.
7[7]Krishna Bharat, Monika R. Henzinger improved algorithms for topic distillation in a hyperlinked environment[C]. In: 21st International ACM SIGIR Conference on Research and Development in Informa-tion Retrieval,1998,8, 104-111.
8[8]Soumen Chakrabarti, Mukul Josln,Vivek Tawde. Enhanced topic distillation using text,markuptags,and hyperlinks[C]. In: Proc.of 24th ACM-SIGIR conference on Research and Development in Infor-mation Retrieval,2001,9, 208-216.
9陈治平,林亚平,童调生.基于N层向量空间模型的信息检索算法[J].计算机研究与发展,2002,39(10):1233-1237. 被引量：17
10[10]Chakrabarti S, Dom B, Gibson D, etc. Automatic resource compilation by analyzing hyperlink structure and associated text[C]. Proc.of 7th World Wide Web Conference,1998,65-74.

二级参考文献7

1上海交大远程教育中心，HTML 语言参考 .WWW书籍，1998年
2Zalane O R，Proc of 1998ACM-SIGMOD Conf onManagement of Data.Seattle，1998年，581页
3Wang Ke，Newport Beach，1997年
4Salton G，Commun ACM，1975年，18卷，5期，613页
5邹涛,王继成,张福炎.基于WWW的资料搜集系统的设计与实现[J].情报学报,1999,18(3):195-201. 被引量：32
6刘芳,卢正鼎.有效地检索HTML文档[J].小型微型计算机系统,2000,21(9):986-988. 被引量：23
7战学刚,林鸿飞,姚天顺.Infolite中文检索系统[J].小型微型计算机系统,2000,21(9):989-992. 被引量：9

共引文献307

1兰晓芳,刘霞,肖毅.基于Django的校友在线平台的设计与实现[J].办公自动化,2021,26(18):17-18. 被引量：3
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
4杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
5李爱国,白冰.基于内容图像检索的Web搜索器[J].郑州大学学报（理学版）,2009,41(2):60-62. 被引量：1
6周云真,舒建文,王平根.数据挖掘在基于WEB的智能远程教育中的应用[J].文教资料,2006(27):154-155. 被引量：1
7郑泠.Web数据挖掘技术应用[J].科技经济市场,2006(12):302-303.
8姚轶.浅谈网络文本挖掘分类[J].科技风,2009(3). 被引量：1
9周涛,李军,陆惠玲.WEB数据挖掘技术研究[J].汉中师范学院学报,2004,22(3):86-90. 被引量：1
10刘春梅.通用Web日志挖掘系统(CWLMS)设计实现[J].防灾技术高等专科学校学报,2004,6(2):48-52. 被引量：1

同被引文献46

1韩亚洪,许卓明,董逸生.Web信息检索中主题精选算法的研究与改进[J].计算机工程与应用,2004,40(17):174-178. 被引量：3
2张自然,金燕.知识检索与信息检索的检索效率比较[J].情报科学,2005,23(4):590-593. 被引量：10
3刘红,邵晓良,胡吉兵.基于页面内容和链接结构的超链接主题预测算法[J].现代图书情报技术,2005(5):41-45. 被引量：1
4王艳华,张纪.Web结构挖掘及其算法[J].计算机工程,2005,31(B07):125-127. 被引量：10
5曾致远,张莉.基于向量空间模型的网页文本表示改进算法[J].计算机工程,2006,32(3):134-135. 被引量：10
6陈志敏,沈洁,林颖,周峰.基于主题划分的网页自动摘要[J].计算机应用,2006,26(3):641-644. 被引量：8
7吴安清,张颖江,涂军.主题搜索ROBOT综合爬行策略的研究[J].武汉理工大学学报,2006,28(2):74-76. 被引量：6
8秦拯,张玲,李娜.改进的PageRank在Web信息搜集中的应用[J].计算机研究与发展,2006,43(6):1044-1049. 被引量：12
9黄德才,戚华春,钱能.基于主题相似度模型的TS-PageRank算法[J].小型微型计算机系统,2007,28(3):510-514. 被引量：23
10CHO J, GARCIA-MOLINA H, PAGE L. Efficient Crawling Through URL Ordering[J]. Computer Networks,1998, 30(1-7) : 161-172.

引证文献7

1杜光芹,张化祥.基于超链接结构和向量空间模型的网页排序算法研究[J].信息技术与信息化,2006(4):106-108.
2焦玉英,宋晓晴.基于VSM的文档信息检索改进[J].情报理论与实践,2007,30(1):97-99. 被引量：5
3黄英铭.Web结构挖掘及HITS算法分析[J].计算机与现代化,2007(7):23-25. 被引量：8
4吴炜,梁昆,李瑞轩,辜希武,卢正鼎.一种基于主题相关度的网页排序算法[J].微电子学与计算机,2008,25(9):221-224. 被引量：3
5范会联,李献礼,曾广朴.基于改进遗传算法的聚焦爬虫设计[J].计算机工程与科学,2010,32(5):126-129. 被引量：3
6曾广朴,范会联.基于遗传算法的聚焦爬虫搜索策略[J].计算机工程,2010,36(11):167-169. 被引量：5
7李春生,刘小刚,焦海涛,张可佳.基于APP搜索系统的PageRank改进算法[J].计算机与现代化,2018(7):24-27. 被引量：1

二级引证文献25

1谭胜,马静,吴一占.基于主题描述模型的相关性判断在网页信息抽取中的应用[J].情报学报,2011,30(2):155-159. 被引量：6
2丁宝琼,蒋建中,郭军利.Web超链接分析算法研究[J].通信技术,2009,42(1):152-154. 被引量：3
3张成伟,郑诚.基于改进VSM的文本信息检索研究[J].计算机技术与发展,2009,19(1):71-73. 被引量：5
4熊忠阳,李智星,张玉芳,江帆.基于正交分解的文本分类模型[J].计算机工程,2009,35(14):227-229. 被引量：3
5侯青.超链接的方式给应用程序传递参数方法的实现[J].信息技术,2009,33(10):152-153.
6张玉芳,梁琪,熊忠阳,肖婷.结合仿射几何和正交分解的类中心分类法研究[J].计算机工程与应用,2010,46(23):141-143. 被引量：1
7焦赛美.网络爬虫技术的研究[J].琼州学院学报,2011,18(5):28-30. 被引量：9
8陈悦,陈运,杨义先,胡迪.基于遗传算法的聚焦爬虫搜索策略设计与研究[J].成都信息工程学院学报,2011,26(5):533-537. 被引量：3
9吴菊英,贾炅昊,冯秀芳.基于农业领域的网络爬虫[J].电脑开发与应用,2012,25(8):30-32. 被引量：2
10白冰,李华,张明星.基于多层向量空间的信息检索研究[J].世界科技研究与发展,2012,34(6):976-978.

1蒋志方,祝翠玲,吴强.一个对不带类别标记文本进行分类的方法[J].计算机工程,2007,33(12):96-98. 被引量：1
2张玉芳,娄娟,李智星,熊忠阳.基于模糊关系的文本分类方法[J].计算机工程,2011,37(16):149-151. 被引量：2
3程诚,陈笑蓉,曾林肖.基于本体的GIS语料库信息检索[J].毕节学院学报（综合版）,2008,26(4):87-91.
4常凯.基于TF＊IDF垃圾邮件过滤改进算法的研究[J].电脑知识与技术,2010,6(9):6928-6930. 被引量：2
5黄国超,王衍波,张凯泽.基于Unicode编码的信息隐藏算法研究与设计[J].计算机技术与发展,2011,21(10):233-236. 被引量：4
6宋峻峰,李国辉.信息检索算法评价指标的分析与改进[J].小型微型计算机系统,2003,24(10):1800-1803. 被引量：6
7岳文,陈治平,林亚平.基于查询扩展和分类的信息检索算法[J].系统仿真学报,2006,18(7):1926-1929. 被引量：10
8汪成亮,张硕果.通过确定邻近区域改进KNN文本分类[J].计算机系统应用,2009,18(11):56-59. 被引量：1
9张亮,邹福泰,张文举,马范援.基于社区的对等网络信息检索[J].上海交通大学学报,2006,40(5):767-770. 被引量：4
10李静,杨小帆,孙启干.面向Web信息检索的虚核文本分类算法[J].计算机工程,2012,38(10):182-184. 被引量：4

小型微型计算机系统

2004年第7期

浏览历史

内容加载中请稍等...

基于超链接和标记文本的信息检索算法被引量：7

参考文献10

二级参考文献7

共引文献307

同被引文献46

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于超链接和标记文本的信息检索算法 被引量：7

参考文献10

二级参考文献7

共引文献307

同被引文献46

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于超链接和标记文本的信息检索算法被引量：7