基于Hadoop/Hive的web日志分析系统的设计被引量：24

Design of web log analysis system based on Hadoop/Hive

在线阅读下载PDF

导出

摘要互联网技术的迅速发展,使得web承载的信息量呈现出爆炸式增长的趋势,因此web日志的数据量也越来愈大。如何存储、处理大规模数据就成了新的挑战。云计算技术的出现,为这类问题的解决提供了一种思路。云计算将数据通过网络分布到集群的各个计算节点上,从而完成大规模数据的存储和运算。Hadoop是一个用于构建云计算平台的流行的开源框架,广泛应用于海量数据的处理。但利用Hadoop处理数据,用户必须自己开发Map/Reduce程序。这种程序处于比较低的层次,用户不容易掌握,而且难于维护。Hive是一个基于Hadoop的开源数据仓库工具,它能够将文件映射成数据表,并提供类SQL语句,简化了用户的开发。利用Hadoop、Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度。通过与单机实验的对比,证明系统是有效的和有价值的。 With the rapid development of Internet technology, the amount of information carried by the web shows explosive growth trend. With this correspondence, web log data is becoming bigger and bigger. Cloud computing technology provides a way to solve this kind of problem. Cloud computing technology completes storing and computing of massive data by distributing data to each computing node of cluster through the network. Hadoop is an open source framework which used widely in massive data processing. However, users have to develop their own Map/Reduce procedure if they want to process data using Hadoop. The Map/Reduce procedure is not easy to grasp and maintain, because it is at a relatively low level. Hive is an open source data warehouse tool which is based on the Hadoop. Hive can map the file into a data table, and provide SQL-Like statements, which simpli- fies the user＇s development. The web log analysis system based on Hadoop and Hive make full use of the data processing ability and reduces the difficulty of development. The system proved to be effective and valuable according to an experiment contrasted with the stand-alone machine.

作者刘永增张晓景李先毅

机构地区大连理工大学网络与信息化中心

出处《广西大学学报（自然科学版）》 CAS CSCD 北大核心 2011年第A01期314-317,共4页 Journal of Guangxi University（Natural Science Edition）

关键词 WEB日志云计算 HADOOP Hive web log cloud computing Hadoop Hive

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1HUSSAIN T, ASGHAR S, MASOOD N. Web Usage Mining:A Survey on Preprocessing of Web Log File[ C]//Information and Emerging Technologies, 2010 : 1-6.
2程苗,陈华平.基于Hadoop的Web日志挖掘[J].计算机工程,2011,37(11):37-39. 被引量：64
3ASHISH T, JOYDEEP S, NAMIT J, et al. Hive-A Petabyte Scale Data Warehouse Using Hadoop[ C ],//Data Engineering (ICDE), 2010 IEEE 26th International :996-1005.
4Tom White.Hadoop权威指南[M].曾大聃,周傲英,译.北京:清华大学出版社,2010.
5HE YONGQIANG, LEE RUBAO, HUAI YIN, et al. RCFile:A Fast and Space-efficient Data Placement Structure in MapReduce-bsed Warehouse Systems[ C ]//Data Engineering (ICDE), 2010 IEEE 26th International :996-1005.

二级参考文献5

1王文平,刘希玉,韩杰.基于并行遗传算法的关联规则挖掘[J].山东师范大学学报（自然科学版）,2006,21(4):29-31. 被引量：7
2Savasere A,Omiecinski E,Navathe S.An Efficient Algorithm for Mining Association Rules in Large Databases[C] //Proceedings of the 21st VLDB Conference.Zurich,Switzerland:[s.n.] ,1995:432-444.
3周勇,刘锋.基于并行遗传算法的规则发现研究[J].计算机技术与发展,2008,18(8):137-139. 被引量：1
4郭本俊,王鹏,陈高云,黄健.基于MPI的云计算模型[J].计算机工程,2009,35(24):84-86. 被引量：38
5邢东山,沈钧毅,宋擒豹.从Web日志中挖掘用户浏览偏爱路径[J].计算机学报,2003,26(11):1518-1523. 被引量：87

共引文献63

1刘春勇,黄志球,王进,徐丙凤.基于SLA的动态云体系结构[J].计算机工程,2011,37(S1):7-9. 被引量：2
2宋莹,沈奇威,王晶.基于Hadoop的Web日志预处理的设计与实现[J].电信工程技术与标准化,2011,24(11):84-89. 被引量：5
3林大云.基于Hadoop的微博信息挖掘[J].计算机光盘软件与应用,2012,15(1):7-8. 被引量：9
4那丽春.集群资源模糊聚类划分模型[J].计算机工程,2012,38(6):34-36. 被引量：2
5李彬,刘莉莉.基于MapReduce的Web日志挖掘[J].计算机工程与应用,2012,48(22):95-98. 被引量：15
6丁振,项颖.基于Hadoop的关联规则算法在电子商务中的应用[J].计算机与现代化,2012(8):122-125. 被引量：4
7冀素琴,石洪波,卫洁.基于Map Reduce的Bagging贝叶斯文本分类[J].计算机工程,2012,38(16):203-206. 被引量：2
8陆秋,程小辉.基于MapReduce的决策树算法并行化[J].计算机应用,2012,32(9):2463-2465. 被引量：19
9朱蔷蔷,张桂芸,刘文龙.基于MapReduce框架一种文本挖掘算法的设计与实现[J].郑州大学学报（工学版）,2012,33(5):110-113. 被引量：4
10张以利,杨万扣,李峻.基于移动Agent的代价驱动的云端存储模型[J].计算机工程与设计,2012,33(11):4240-4244. 被引量：3

同被引文献120

1何明,周雯娟,黄小龙,魏为.决策树算法在人才招聘简历筛选中的应用[J].企业改革与管理,2020(17):83-84. 被引量：3
2崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：142
3赵立江,何钦铭.一种个性化Web推荐系统的研究与实现[J].武汉理工大学学报（交通科学与工程版）,2004,28(5):681-684. 被引量：14
4李洁,高新波,焦李成.模糊CLOPE算法及其参数优选[J].控制与决策,2004,19(11):1250-1254. 被引量：4
5孙微微,刘才兴,田绪红.训练集容量对决策树分类错误率的影响研究[J].计算机工程与应用,2005,41(10):159-161. 被引量：6
6李路.分布式入侵检测系统中的数据分析[J].沈阳大学学报,2005,17(4):28-31. 被引量：2
7谈克林,孙志挥.一种FP树的并行挖掘算法[J].计算机工程与应用,2006,42(13):155-157. 被引量：10
8钟清流,蔡自兴.基于支持向量机的渐近式半监督式学习算法[J].计算机工程与应用,2006,42(25):19-22. 被引量：4
9花海洋,李一凡,赵怀慈.基于分布式数据仓库技术的ETL系统的研究与应用[J].微计算机信息,2006,22(10X):144-146. 被引量：8
10王凯,渠芳,王辉.利用Web挖掘技术实现个性化推送服务[J].情报杂志,2006,25(11):86-88. 被引量：9

引证文献24

1陈小样.关于数据统计的课程推荐算法在远程教育平台的应用概述[J].吉林广播电视大学学报,2021(6):21-23. 被引量：1
2王玉玲,孙齐力,王宏.儿童感染后心肌损伤综合征中西医结合治疗[J].中医药信息,2000,17(2):52-53.
3聂瑞,卢建军,卫晨.基于Hadoop平台的OLAP煤炭销售数据分析系统[J].工矿自动化,2012,38(11):77-80. 被引量：2
4周诗慧,殷建.Hadoop平台下的并行Web日志挖掘算法[J].计算机工程,2013,39(6):43-46. 被引量：6
5李伟卫,李梅,张阳,申爱丽.基于分布式数据仓库的分类分析研究[J].计算机应用研究,2013,30(10):2936-2939. 被引量：10
6张惠民,胡海荣,向阳霞.云平台下的装备保障管理系统结构化数据查询[J].计算机系统应用,2015,24(2):70-74. 被引量：2
7陈效杰,张金泉.基于Hadoop/Hive的气象数据分布式处理研究[J].软件导刊,2015,14(8):11-13. 被引量：7
8孙彦超,李忠刚.基于Hadoop的高校日志分析应用架构的研究[J].中国教育信息化（基础教育）,2015(8):82-84.
9张拥华.基于云平台的分布式日志系统设计与实现[J].信息与电脑,2015,27(9):130-131. 被引量：1
10于金良,朱志祥,梁小江.一种基于Sqoop的数据交换系统[J].物联网技术,2016,6(3):35-37. 被引量：18

二级引证文献94

1张梅,赵晓平,王宇平,周洁.基于海量日志数据的系统吞吐量优化方案[J].区域治理,2018,0(35):217-218.
2朱新书,段二喜,唐湘彦,汪友元,唐剑,高菊生.鲁西黄牛在湘南红壤丘陵地区的增重潜力试验[J].中国草食动物,2000,2(1):26-27.
3张兴旺,黄晓斌.图书情报学视角下Web挖掘研究述评[J].图书情报工作,2014,58(4):117-126. 被引量：2
4陈龙,万定生,顾昕辰.基于Hive的水利普查数据仓库[J].计算机与现代化,2014(5):127-130. 被引量：9
5张艳.工程预算决策中数据仓库的数学描述及构建[J].科技通报,2014,30(5):152-155.
6谢福伟,梁昌勇,马银超.基于云计算的景区数据仓库应用研究[J].计算机技术与发展,2014,24(9):198-201. 被引量：4
7郑柏恒,孟文,易东,梁晓波.在Hadoop集群下的智能电网数据云仓库设计[J].制造业自动化,2014,36(19):134-138. 被引量：6
8刘承良.云计算环境下冗余数据分类技术仿真[J].计算机与网络,2015,41(20):68-71.
9任春华,廖雪花,唐思娩,严余松,孙尉筌.基于Hive和Impala的物流运力供应链数据仓库研究[J].物流技术,2016,35(1):124-126. 被引量：3
10杨勇,任淑霞,冉娟,李春青.基于粒子群优化的k-means改进算法实现Web日志挖掘[J].计算机应用,2016,36(A01):29-32. 被引量：8

1江三锋,王元亮.基于Hive的海量web日志分析系统设计研究[J].软件,2015,36(4):93-96. 被引量：9
2阳小兰,钱程,赵海廷.Web日志分析系统研究[J].计算机技术与发展,2011,21(9):211-215. 被引量：5
3钟焰涛,常致全.基于工作流引擎的数据仓库工具的构建[J].现代计算机,2005,11(4):19-22. 被引量：1
4王喜春,孙志禹.基于大数据的水利水电云GIS平台概述[J].人民长江,2013,44(S1):182-184. 被引量：11
5潘景新.数据仓库与数据仓库工具[J].长沙通信职业技术学院学报,2005,4(2):68-71. 被引量：2
6张校慧,谢倩.Web日志在协同过滤推荐算法中的应用[J].现代计算机,2011,17(4):68-71.
7罗冬梅.基于改进k-prototypes算法的Web日志分析系统的设计与实现[J].吉林工程技术师范学院学报,2015,31(5):93-96.
8罗冬梅.改进的k-prototypes算法及应用[J].武夷学院学报,2009,28(2):74-77. 被引量：1
9周松松,马建红.基于URL相似度的会话识别方法[J].计算机系统应用,2014,23(12):191-196. 被引量：3
10王春霞.Web日志挖掘系统[J].河南教育学院学报（自然科学版）,2005,14(4):35-37. 被引量：1

广西大学学报（自然科学版）

2011年第A01期

浏览历史

内容加载中请稍等...

基于Hadoop/Hive的web日志分析系统的设计被引量：24

参考文献5

二级参考文献5

共引文献63

同被引文献120

引证文献24

二级引证文献94

相关作者

相关机构

相关主题

浏览历史

基于Hadoop/Hive的web日志分析系统的设计 被引量：24

参考文献5

二级参考文献5

共引文献63

同被引文献120

引证文献24

二级引证文献94

相关作者

相关机构

相关主题

浏览历史

基于Hadoop/Hive的web日志分析系统的设计被引量：24