-
题名基于URL模式集的主题爬虫
被引量:18
- 1
-
-
作者
胡萍瑞
李石君
-
机构
武汉大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2018年第3期694-699,726,共7页
-
基金
国家自然科学基金资助项目(61272109
61502350)
-
文摘
为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模式关系图,计算出各模式的重要度;在聚焦爬虫阶段,无须预先下载页面,即可利用生成的URL模式判断页面是否主题相关和能否指导爬虫深入抓取,并根据URL模式的重要度预测待抓取链接优先级。实验表明,该爬虫相比现有的主题爬虫能快速引导爬虫抓取主题相关页面,保证爬虫的查准率和查全率,有效提高爬虫抓取效率。
-
关键词
主题爬虫
url模式
url前缀树
模式关系图
url模式重要性
-
Keywords
focused crawler
url pattern
url prefix tree
pattern graph
importance of url pattern
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名URL模式与HTML结构相结合的平行网页获取方法
被引量:6
- 2
-
-
作者
刘奇
刘洋
孙茂松
-
机构
清华大学计算机科学与技术系智能技术与系统国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2013年第3期91-99,共9页
-
基金
国家863计划资助项目(2012AA011102
2011AA01A207)
媒体与网络技术教育部一微软重点实验室资助项目(20123000007)
-
文摘
平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取。在联合国与香港政府①两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率提高15%,并显著提高了机器翻译的质量(BLEU值分别提高1.6和0.7个百分点)。
-
关键词
平行网页获取
平行语料库
url模式
HTML结构
-
Keywords
parallel pages mining~ parallel corpus~ url patterns HTML structure
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于双语URL匹配模式可信度的平行网页识别研究
被引量:3
- 3
-
-
作者
章成志
马舒天
揭春雨
姚旭晨
-
机构
南京理工大学信息管理系
香港城市大学翻译及语言学系
百度在线网络技术(北京)有限公司
-
出处
《中文信息学报》
CSCD
北大核心
2018年第3期91-100,共10页
-
基金
香港城市大学SRG-Fd项目(7008003)
香港研资局GRF项目(CityU 144410
+1 种基金
11600415)
国家自然科学基金(70903032)
-
文摘
平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。
-
关键词
平行网页获取
平行语料库
双语url匹配模式
双语文本挖掘
-
Keywords
parallel webpage mining
parallel corpora
bilingual url pairing pattern
bilingual text mining
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于URL聚类模式的个性化智能推荐服务
- 4
-
-
作者
姚奇富
张国清
-
机构
浙江工商职业技术学院
中国科学院计算技术研究所
-
出处
《情报杂志》
CSSCI
北大核心
2006年第7期36-38,共3页
-
基金
国家863项目资助(编号:2002AA142030)
-
文摘
基于Web访问挖掘的个性化智能信息推荐服务方法的处理过程分为在线部分和离线部分。离线部分主要完成从站点服务器的访问LOG文件中挖掘出适合在线智能个性化推荐服务的用户事务模式,采用基于聚类用户事务方法获取用户个性化模式。在线部分通过个性化智能推荐服务智能接口实现基于URL聚类模式的个性化信息推荐服务,给出了链接距离因子定义和基于URL聚类模式的生成算法。通过实验总结这种方法的优缺点,这种方法是有效和可实现的。
-
关键词
WEB
访问挖掘
个性化
智能推荐
url聚类模式
站点服务器
-
分类号
TP368.5
[自动化与计算机技术—计算机系统结构]
TP393.092
[自动化与计算机技术—计算机应用技术]
-