-
题名基于列存储的MapReduce并行连接算法
被引量:5
- 1
-
-
作者
张滨
乐嘉锦
-
机构
东华大学计算机科学与技术学院
浙江财经大学
-
出处
《计算机工程》
CAS
CSCD
2014年第8期70-75,85,共7页
-
基金
国家自然科学基金资助项目(61070031
61070032)
浙江省教育厅科研基金资助项目(Y201225326)
-
文摘
针对传统关系型数据库在对大数据进行操作时,系统性能严重下降、计算效率提升有限以及可扩展性差等问题,引入MapReduce并行计算模型,提出一种大数据上基于列存储的MapReduce并行连接算法。设计面向大数据的分布式计算模型,包括MapReduce分布式环境下的列存储文件格式MCF,采用协同定位策略实现对分布式存储的优化。使用分片聚集和子连接启发式优化方法,实现大数据在MapReduce分布式环境下并行连接算法。实验结果证明,在大数据分析处理中,该算法在执行时间和负载能力上有着较好的优化性能,同时具有良好的可扩展性。
-
关键词
大数据
列存储
MAPREDUCE模型
mcf存储格式
并行连接
启发式优化方法
-
Keywords
big data
column-store
MapReduce model
mcf storage form
parallel join
heuristic optimization method
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-