期刊文献+
共找到222篇文章
< 1 2 12 >
每页显示 20 50 100
An adaptive range-query optimization technique with distributed replicas
1
作者 Sayar Ahmet Pierce Marlon Fox C.Geoffrey 《Journal of Central South University》 SCIE EI CAS 2014年第1期190-198,共9页
Replication is an approach often used to speed up the execution of queries submitted to a large dataset.A compile-time/run-time approach is presented for minimizing the response time of 2-dimensional range when a dist... Replication is an approach often used to speed up the execution of queries submitted to a large dataset.A compile-time/run-time approach is presented for minimizing the response time of 2-dimensional range when a distributed replica of a dataset exists.The aim is to partition the query payload(and its range) into subsets and distribute those to the replica nodes in a way that minimizes a client's response time.However,since query size and distribution characteristics of data(data dense/sparse regions) in varying ranges are not known a priori,performing efficient load balancing and parallel processing over the unpredictable workload is difficult.A technique based on the creation and manipulation of dynamic spatial indexes for query payload estimation in distributed queries was proposed.The effectiveness of this technique was demonstrated on queries for analysis of archived earthquake-generated seismic data records. 展开更多
关键词 distributed systems load balancing range query query optimization
在线阅读 下载PDF
A privacy-preserved indexing schema in DaaS model for range queries
2
作者 Hao Renzhi Li Jun Wu Guangjun 《High Technology Letters》 EI CAS 2020年第4期448-454,共7页
In a database-as-a-service(DaaS)model,a data owner stores data in a database server of a service provider,and the DaaS adopts the encryption for data privacy and indexing for data query.However,an attacker can obtain ... In a database-as-a-service(DaaS)model,a data owner stores data in a database server of a service provider,and the DaaS adopts the encryption for data privacy and indexing for data query.However,an attacker can obtain original data’s statistical information and distribution via the indexing distribution from the database of the service provider.In this work,a novel indexing schema is proposed to satisfy privacy-preserved data management requirements,in which an attacker cannot obtain data source distribution or statistic information from the index.The approach includes 2 parts:the Hash-based indexing for encrypted data and correctness verification for range queries.The evaluation results demonstrate that the approach can hide statistical information of encrypted data distribution while can also obtain correct answers for range queries.Meanwhile,the approach can achieve nearly 10 times and 35 times improvement on encrypted data publishing and indexing respectively,compared with the start-of-the-art method order-preserving Hash-based function(OPHF). 展开更多
关键词 database-as-a-service(DaaS)model data privacy and security data verification range query
在线阅读 下载PDF
保护隐私的多维多范围数据查询
3
作者 段雨薇 李顺东 《密码学报(中英文)》 北大核心 2025年第1期117-132,共16页
范围查询作为隐私计算中的一个重要问题实际中应用广泛,目前研究成果集中于在数据集中查询是否有满足规定条件的记录,对于在查询范围内数据的统计量分析研究较少且只有区间合并计数查询,无法对多区间数据分区间单独计数.本文基于算术基... 范围查询作为隐私计算中的一个重要问题实际中应用广泛,目前研究成果集中于在数据集中查询是否有满足规定条件的记录,对于在查询范围内数据的统计量分析研究较少且只有区间合并计数查询,无法对多区间数据分区间单独计数.本文基于算术基本定理提出新的编码方法解决区间分别计数的问题,该方案可用于解决单维数据和多维数据多区间范围查询问题.进一步利用加密选择以及ElGamal门限解密系统设计了保护隐私的多区间范围查询协议,并使用模拟范例对协议进行了安全性证明.实验结果表明本文协议简单高效.该方案基于算术基本定理,将各区间的计数结果转化为素数指数形式,从而有效减少了分区间计数所需的通信量,最大限度地保障了计算过程中的数据安全性.实验结果表明,在包含100个参与方的查询中,单维数据范围计数的时间为130 ms,多维数据范围计数的时间为320 ms,证明了本文协议在安全性和效率方面的优越性. 展开更多
关键词 安全多方计算 范围查询 同态加密 加密选择 多区间
在线阅读 下载PDF
Multidimensional Data Querying on Tree-Structured Overlay
4
作者 XU Lizhen WANG Shiyuan 《Wuhan University Journal of Natural Sciences》 CAS 2006年第5期1367-1372,共6页
Multidimensional data query has been gaining much interest in database research communities in recent years, yet many of the existing studies focus mainly on ten tralized systems. A solution to querying in Peer-to-Pee... Multidimensional data query has been gaining much interest in database research communities in recent years, yet many of the existing studies focus mainly on ten tralized systems. A solution to querying in Peer-to-Peer(P2P) environment was proposed to achieve both low processing cost in terms of the number of peers accessed and search messages and balanced query loads among peers. The system is based on a balanced tree structured P2P network. By partitioning the query space intelligently, the amount of query forwarding is effectively controlled, and the number of peers involved and search messages are also limited. Dynamic load balancing can be achieved during space partitioning and query resolving. Extensive experiments confirm the effectiveness and scalability of our algorithms on P2P networks. 展开更多
关键词 range query skyline query P2P indexing multi-dimensional data partition
在线阅读 下载PDF
基于STE的减少查询泄露的关系数据库加密方案
5
作者 苏雨晨 马昌社 《网络与信息安全学报》 2024年第2期165-181,共17页
近年提出的基于部分预计算的SQL连接索引(PpSj)方案是一种基于结构化加密技术的关系数据库加密方案,它利用部分预计算索引连接技术和过滤哈希集技术支持高效的连接查询和布尔查询。但是,该方案也存在一些缺陷,主要表现在执行布尔查询时... 近年提出的基于部分预计算的SQL连接索引(PpSj)方案是一种基于结构化加密技术的关系数据库加密方案,它利用部分预计算索引连接技术和过滤哈希集技术支持高效的连接查询和布尔查询。但是,该方案也存在一些缺陷,主要表现在执行布尔查询时会泄露过多的信息,以及不能支持范围查询。针对这些问题,提出一种改进的多功能加密数据库(MFEDB)方案,该方案在PpSj方案基础上,引入一种混合过滤技术,结合2种过滤方法,减少了布尔查询的信息泄露,扩展了支持的结构化查询语言(SQL)的查询子集,包括等值查询、连接查询、布尔查询和范围查询,同时平衡了服务器存储开销与客户端和服务器之间产生的通信开销。 展开更多
关键词 等值查询 连接查询 范围查询 布尔查询 结构化加密
在线阅读 下载PDF
一种基于分段线性回归树的轨迹索引
6
作者 武凡 韩京宇 +4 位作者 刘阳 李彩云 缪祝青 王彦之 毛毅 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2055-2062,共8页
处理多维数据查询时,为了减少存储消耗,采用学习型索引替代传统索引受到关注.轨迹点会在时间或者空间维度上的某些区间聚集,数据分布倾斜,从而扭曲学习模型预测精度,导致较高的磁盘访问次数.提出一种基于分段线性回归树的轨迹索引,以降... 处理多维数据查询时,为了减少存储消耗,采用学习型索引替代传统索引受到关注.轨迹点会在时间或者空间维度上的某些区间聚集,数据分布倾斜,从而扭曲学习模型预测精度,导致较高的磁盘访问次数.提出一种基于分段线性回归树的轨迹索引,以降低存储代价并减少磁盘访问次数,包括数据排序和模型训练两个阶段.在第一个阶段,沿着时间维度划分轨迹点以形成一系列时空子区域,在每个时空子区域根据映射函数对轨迹点进行空间维度的存储,从而确定轨迹点的全局序号.在第二个阶段,使用初始数据构建分段线性回归树作为预测模型,并基于该模型预测位置来存储未来数据.模拟和真实的数据集上的实验表明,该方法在保证查询性能优于学习型索引的前提下,存储消耗和构建时间大幅度降低. 展开更多
关键词 轨迹点 学习型索引 分段线性回归树 范围查询 点查询
在线阅读 下载PDF
基于LSM-Tree的键值存储系统的读写性能优化
7
作者 程浩津 胡乃平 《计算机测量与控制》 2024年第6期262-268,275,共8页
在写密集型工作环境中,日志结构合并树(LSM-Tree)已逐渐成为主流存储系统,LSM-Tree存在读操作速度慢、写操作成本高、范围查询操作效率低等问题;针对这些问题,为提升LSM-Tree的性能进行了研究,提出了一种基于LSM-Tree的键值存储系统的... 在写密集型工作环境中,日志结构合并树(LSM-Tree)已逐渐成为主流存储系统,LSM-Tree存在读操作速度慢、写操作成本高、范围查询操作效率低等问题;针对这些问题,为提升LSM-Tree的性能进行了研究,提出了一种基于LSM-Tree的键值存储系统的读写性能优化策略,通过键值分离策略设计vTree结构,并提出层内归并与消极的层间合并相结合的方法,以及范围查询优化合并的策略,从而优化系统的范围查询性能,在LSM-Tree和vTree采用不同的压缩结构,以实现系统读写性能的提升;实验结果表明,与RocksDB相比读性能提升30%,与RocksDB-vTree相比范围查询性能提升10%。 展开更多
关键词 读性能 LSM-Tree 消极的层间合并 范围查询优化合并 范围查询
在线阅读 下载PDF
Uncertain Distance-Based Range Queries over Uncertain Moving Objects 被引量:1
8
作者 陈逸菲 秦小麟 刘亮 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第5期982-998,共17页
Distance-based range search is crucial in many real applications.In particular,given a database and a query issuer,a distance-based range search retrieves all the objects in the database whose distances from the query... Distance-based range search is crucial in many real applications.In particular,given a database and a query issuer,a distance-based range search retrieves all the objects in the database whose distances from the query issuer are less than or equal to a given threshold.Often,due to the accuracy of positioning devices,updating protocols or characteristics of applications(for example,location privacy protection),data obtained from real world are imprecise or uncertain.Therefore, existing approaches over exact databases cannot be directly applied to the uncertain scenario.In this paper,we redefine the distance-based range query in the context of uncertain databases,namely the probabilistic uncertain distance-based range (PUDR) queries,which obtain objects with confidence guarantees.We categorize the topological relationships between uncertain objects and uncertain search ranges into six cases and present the probability evaluation in each case.It is verified by experiments that our approach outperform Monte-Carlo method utilized in most existing work in precision and time cost for uniform uncertainty distribution.This approach approximates the probabilities of objects following other practical uncertainty distribution,such as Gaussian distribution with acceptable errors.Since the retrieval of a PUDR query requires accessing all the objects in the databases,which is quite costly,we propose spatial pruning and probabilistic pruning techniques to reduce the search space.Two metrics,false positive rate and false negative rate are introduced to measure the qualities of query results.An extensive empirical study has been conducted to demonstrate the efficiency and effectiveness of our proposed algorithms under various experimental settings. 展开更多
关键词 moving objects UNCERTAINTY distance-based range query
原文传递
支持亿级数据的高效密文范围查询完整性验证
9
作者 王肇康 潘佳辉 周璐 《模式识别与人工智能》 EI CSCD 北大核心 2024年第1期27-46,共20页
密文查询的完整性验证机制能在保护人工智能应用数据隐私的同时,为查询结果的可靠性提供保证.然而,现有针对密文范围查询的完整性验证方法存在验证数据结构构建开销较高、数据可扩展性较差的缺陷.为此,文中分析ServeDB(Secure Verifiabl... 密文查询的完整性验证机制能在保护人工智能应用数据隐私的同时,为查询结果的可靠性提供保证.然而,现有针对密文范围查询的完整性验证方法存在验证数据结构构建开销较高、数据可扩展性较差的缺陷.为此,文中分析ServeDB(Secure Verifiable and Efficient Framework)计算性能瓶颈产生的原因,并基于分析结论提出基于立方格索引的密文范围查询完整性验证方法(Cube-Cell-Based Authentication Tree,CubeTree).CubeTree采用基于分位数归一化的数据重分布优化方法,平衡数据记录在值域空间中的分布,降低数据记录的编码开销.进一步提出基于平衡K叉树的扁平化结构以及基于立方格索引的验证数据结构,合并具有相同编码的数据记录,采用立方格作为基本验证单元,大幅降低验证数据结构的冗余性,减少构造过程的计算与存储开销.在真实数据集与合成数据集上的实验表明,CubeTree能显著降低验证数据结构的构建开销以及查询完整性证明的生成与校验开销,并可高效处理亿级规模的大型数据集. 展开更多
关键词 应用安全 密文范围查询 查询完整性验证 验证数据结构 立方格索引
在线阅读 下载PDF
空管时空数据分布式存储与快速查询
10
作者 王小乐 陈曦 +2 位作者 田云钢 梁永胜 葛昊 《指挥信息系统与技术》 2024年第5期53-59,共7页
针对空管监视等海量时空数据因缺乏有效的分布式存储模型,而无法有效支持快速检索查询的问题,首先,引入空间编码S2,建立空管监视分布式存储模型(PS2⁃HBase);然后,优化了时空多边形查询和K近邻(KNN)查询算法策略,搭建了空管时空数据分布... 针对空管监视等海量时空数据因缺乏有效的分布式存储模型,而无法有效支持快速检索查询的问题,首先,引入空间编码S2,建立空管监视分布式存储模型(PS2⁃HBase);然后,优化了时空多边形查询和K近邻(KNN)查询算法策略,搭建了空管时空数据分布式存储和查询系统原型;最后,在真实数据集中进行了试验,并与传统ST⁃Hash方法进行了对比。试验结果表明,该方法在2种查询情况下要优于ST⁃Hash策略。 展开更多
关键词 时空数据 分布式存储模型 时空范围查询 KNN查询
在线阅读 下载PDF
Parallel Data Cube Storage Structure for Range Sum Queries and Dynamic Updates
11
作者 HongGao Jian-ZhongLi 《Journal of Computer Science & Technology》 SCIE EI CSCD 2005年第3期345-356,共12页
I/O parallelism is considered to be a promising approach to achieving highperformance in parallel data warehousing systems where huge amounts of data and complex analyticalqueries have to be processed. This paper prop... I/O parallelism is considered to be a promising approach to achieving highperformance in parallel data warehousing systems where huge amounts of data and complex analyticalqueries have to be processed. This paper proposes a parallel secondary data cube storage structure(PHC for short) to efficiently support the processing of range sum queries and dynamic updates ondata cube using parallel computing systems. Based on PHC, two parallel algorithms for processingrange sum queries and updates are proposed also. Both the algorithms have the same time complexity,O(log^d n/P). The analytical and experimental results show that PHC and the parallel algorithms havehigh performance and achieve optimum speedup. 展开更多
关键词 data warehouse parallel processing CUBE range query processing
原文传递
Fuzzy Distance-Based Range Queries over Uncertain Moving Objects
12
作者 陈逸菲 秦小麟 +1 位作者 刘亮 李博涵 《Journal of Computer Science & Technology》 SCIE EI CSCD 2012年第2期376-396,共21页
Data obtained from real world are imprecise or uncertain due to the accuracy of positioning devices,updating protocols or characteristics of applications.On the other hand,users sometimes prefer to qualitatively expre... Data obtained from real world are imprecise or uncertain due to the accuracy of positioning devices,updating protocols or characteristics of applications.On the other hand,users sometimes prefer to qualitatively express their requests with vague conditions and different parts of search region are in-equally important in some applications.We address the problem of efficiently processing the fuzzy range queries for uncertain moving objects whose whereabouts in time are not known exactly,for which the basic syntax is find objects always/sometimes near to the query issuer with the qualifying guarantees no less than a given threshold during a given temporal interval.We model the location uncertainty of moving objects on the utilization of probability density functions and describe the indeterminate boundary of query range with fuzzy set.We present the qualifying guarantee evaluation of objects,and propose pruning techniques based on the α-cut of fuzzy set to shrink the search space efficiently.We also design rules to reject non-qualifying objects and validate qualifying objects in order to avoid unnecessary costly numeric integrations in the refinement step.An extensive empirical study has been conducted to demonstrate the efficiency and effectiveness of algorithms under various experimental 展开更多
关键词 moving object UNCERTAINTY FUZZY distance-based range query
原文传递
Kd-tree and quad-tree decompositions for declustering of 2D range queries over uncertain space
13
作者 Ahmet SAYAR Suleyman EKEN Okan OZTURK 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2015年第2期98-108,共11页
We present a study to show the possibility of using two well-known space partitioning and indexing techniques, kd trees and quad trees, in declustering applications to increase input/output (I/O) paraUelization and ... We present a study to show the possibility of using two well-known space partitioning and indexing techniques, kd trees and quad trees, in declustering applications to increase input/output (I/O) paraUelization and reduce spatial data processing times. This parallelization enables time-consuming computational geometry algorithms to be applied efficiently to big spatial data rendering and querying. The key challenge is how to balance the spatial processing load across a large number of worker nodes, given significant performance heterogeneity in nodes and processing skews in the workload. 展开更多
关键词 Kd tree Quad tree Space partitioning Spatial indexing range queries query optimization
原文传递
Range Query Processing in Multidisk Systems
14
作者 李建中 《Journal of Computer Science & Technology》 SCIE EI CSCD 1992年第4期316-327,共12页
In order to reduce the disk access time, a database can be stored on several simultaneously accessi- ble disks. In this paper, we are concerned with the dynamic d-attribute database allocation problem for range querie... In order to reduce the disk access time, a database can be stored on several simultaneously accessi- ble disks. In this paper, we are concerned with the dynamic d-attribute database allocation problem for range queries. An allocation method, called coordinate modulo allocation method, is proposed to al- locate data in a d-attribute database among disks so that the maximum disk accessing concurrency can be achieved for range queries. Our analysis and experiments show that the method achieves the optimum or near-optimum parallelism for range queries. The paper offers the conditions under which the method is optimal. The worst case bounds of the performance of the method are also given. In addi- tion, the parallel algorithm of processing range queries is described at the end of the paper. The meth- od has been used in the statistic and scientific database management system which is being designed by us. 展开更多
关键词 PRO range query Processing in Multidisk Systems CMA
原文传递
基于U-tree的不确定移动对象索引策略 被引量:11
15
作者 丁晓锋 卢炎生 +2 位作者 潘鹏 洪亮 魏琼 《软件学报》 EI CSCD 北大核心 2008年第10期2696-2705,共10页
通过在U-tree中添加时间戳和速度矢量等时空因素,提出一种基于U-tree的高效率当前及未来不确定位置信息检索的索引结构TPU-tree,可以支持多维空间中不确定移动对象的索引,并提出了一种改进的基于p-bound的MP_BBRQ(modifiedp-bound based... 通过在U-tree中添加时间戳和速度矢量等时空因素,提出一种基于U-tree的高效率当前及未来不确定位置信息检索的索引结构TPU-tree,可以支持多维空间中不确定移动对象的索引,并提出了一种改进的基于p-bound的MP_BBRQ(modifiedp-bound based range query)域查询处理算法,能够引入搜索区域进行预裁剪以减少查询精炼阶段所需代价偏高的积分计算.实验仿真表明,采用MP_BBRQ算法的TPU-tree概率查询性能极大地优于传统的TPR-tree索引,且更新性能与传统索引大致相当,具有良好的实用价值. 展开更多
关键词 移动对象位置管理 索引结构 不确定性数据 TPU树 MP_BBRQ(modified p-bound based range query)算法
在线阅读 下载PDF
基于二分频率变换的序列相似性查询处理技术 被引量:8
16
作者 王国仁 葛健 +1 位作者 徐恒宇 郑若石 《软件学报》 EI CSCD 北大核心 2006年第2期232-241,共10页
作为基因功能预测的主要手段,序列相似性查询技术是生物信息学领域的研究热点.基因序列和结构的相似性往往决定了基因功能的相似性,因此可以通过基因序列的相似性查找来预测新基因的功能.分析了MRS索引中频率变化和小波变换等相关技术,... 作为基因功能预测的主要手段,序列相似性查询技术是生物信息学领域的研究热点.基因序列和结构的相似性往往决定了基因功能的相似性,因此可以通过基因序列的相似性查找来预测新基因的功能.分析了MRS索引中频率变化和小波变换等相关技术,讨论了它们的缺点和不足,提出了一种基于二分频率变换2-PFT的序列相似性查询处理技术.首先,设计了二分频率变换和相应的距离函数,使得系统较之频率变换和小波变换具有更高的过滤能力,极大地提高了系统的性能;其次,解决了处理任意长度查询的问题.理论证明和实验结果均表明,2-PFT系统的性能远远优于MRS系统. 展开更多
关键词 序列相似性查询 范围查询 编辑距离 生物信息学
在线阅读 下载PDF
云计算环境下支持复杂查询的多维数据索引机制 被引量:14
17
作者 朱夏 罗军舟 +1 位作者 宋爱波 东方 《计算机研究与发展》 EI CSCD 北大核心 2013年第8期1592-1603,共12页
针对云计算环境下分布式存储系统的数据索引不支持复杂查询的问题,提出了一种多维数据索引机制M-Index,采用金字塔技术(pyramid-technique)将数据的多维元数据描述成一维索引,在此基础上首次提出前缀二叉树(prefix binary tree,PBT)的概... 针对云计算环境下分布式存储系统的数据索引不支持复杂查询的问题,提出了一种多维数据索引机制M-Index,采用金字塔技术(pyramid-technique)将数据的多维元数据描述成一维索引,在此基础上首次提出前缀二叉树(prefix binary tree,PBT)的概念,通过提取一维索引和PBT有效节点的前缀作为数据在存储系统中的主键.数据根据主键和一致性Hash机制发布到存储节点组成的覆盖网络.设计了基于M-Index的数据查询算法,将复杂查询请求转换成一维查询键值,有效支持多维查询和区间查询等复杂查询模式.理论分析和实验表明,M-Index在复杂查询模式下具有良好的查询效率和负载均衡. 展开更多
关键词 云计算 数据索引 多维查询 区间查询 一致性Hash
在线阅读 下载PDF
一种基于Chord的网格资源定位方法 被引量:4
18
作者 胡志刚 谭树斐 +2 位作者 桂卫华 陈建二 陈松乔 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第3期465-469,共5页
在Chord定位方法的基础上,针对网格资源的特点,提出数字型属性范围查询以及多维查询的思想,并基于这些思想提出在网格环境下的资源定位方法—单属性支配的多维查询方法。模拟实验结果表明,该方法具有良好的可扩展性。
关键词 网格 资源定位 CHORD 多维查询 范围查询
在线阅读 下载PDF
用于数据仓储的一种改进的多维存储结构 被引量:10
19
作者 冯建华 蒋旭东 周立柱 《软件学报》 EI CSCD 北大核心 2002年第8期1423-1429,共7页
对于数据仓库中数据的物理存储组织,目前主要有关系和多维数组两种方式.这两种方式各有自己的优缺点,从提高联机分析处理(online analytical processing,简称OLAP)查询处理性能的角度出发,多维数组方式相对较优,目的主要是解决数据仓库... 对于数据仓库中数据的物理存储组织,目前主要有关系和多维数组两种方式.这两种方式各有自己的优缺点,从提高联机分析处理(online analytical processing,简称OLAP)查询处理性能的角度出发,多维数组方式相对较优,目的主要是解决数据仓库的多维存储结构问题.针对当前多维数组存储组织方式存在的一些问题,提出了Cube(立方体)逻辑存储和物理存储的概念,首先将原多维数据空间划分为逻辑子空间,逻辑块再划分为多个物理块.在物理存储时充分考虑了多维数组的大容量和高稀疏度的问题,并采用新的多维数组的分布和压缩方法.这些概念和方法有效地解决了维内部层次结构的聚集操作和Cube操作的效率问题,显著提高了涉及维内部层次的聚集查询的响应速度,同时还解决了增量维护的效率问题. 展开更多
关键词 数据仓储 多维存储结构 多维数组 聚集查询 区域查询 联机分析处理 关系数据库
在线阅读 下载PDF
基于MapReduce模型的范围查询分析优化技术研究 被引量:14
20
作者 赵辉 杨树强 +2 位作者 陈志坤 尹洪 金松昌 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期606-617,共12页
近年来,MapReduce并行计算模型受到工业界和学术界广泛关注.基于该模型的系统实现已在谷歌、雅虎、Facebook等大公司内部成功应用.然而,基于MapReduce的系统实现最初用于解决海量无结构、半结构化数据的批处理问题,例如生成倒排索引、... 近年来,MapReduce并行计算模型受到工业界和学术界广泛关注.基于该模型的系统实现已在谷歌、雅虎、Facebook等大公司内部成功应用.然而,基于MapReduce的系统实现最初用于解决海量无结构、半结构化数据的批处理问题,例如生成倒排索引、计算网页的pagerank、日志分析等,在设计上缺乏针对海量结构化数据进行交互式分析处理的优化考虑,例如:它总是采用全数据集强力扫描的数据处理模式,这有悖于结构化数据管理中常用的操作模式———选择性查询分析处理.针对该问题,引入传统数据库管理领域中常用的全局索引技术,将其应用在基于MapReduce模型的开源项目Hadoop上,以block为粒度对Hadoop分布式文件系统上的结构化数据构建全局索引结构,并给出一种面向范围查询分析的作业编译与调度执行优化算法,主要目标是基于应用语义及辅助索引结构减少不必要的map任务数,进而优化作业的调度开销和执行开销.在实验验证阶段,给出了80%,50%,30%,10%四种数据选择率在3种集群规模下的优化效果,发现作业响应时间最高可提升5倍,I?O开销最高提升10倍,任务调度开销最高提升11倍. 展开更多
关键词 大数据分析 全局索引 范围查询
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部