期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
数据管理系统评测基准:从传统数据库到新兴大数据 被引量:69
1
作者 金澈清 钱卫宁 +1 位作者 周敏奇 周傲英 《计算机学报》 EI CSCD 北大核心 2015年第1期18-34,共17页
大数据时代的到来意味着新技术、新系统和新产品的出现.如何客观地比较和评价不同系统之间的优劣自然成为一个热门研究课题,这种情形与三十多年前数据库系统蓬勃发展时期甚为相似.众所周知,在数据库系统取得辉煌成就的发展道路上,基准... 大数据时代的到来意味着新技术、新系统和新产品的出现.如何客观地比较和评价不同系统之间的优劣自然成为一个热门研究课题,这种情形与三十多年前数据库系统蓬勃发展时期甚为相似.众所周知,在数据库系统取得辉煌成就的发展道路上,基准评测研究一直扮演着重要角色,极大推进了数据库技术和系统的长足发展.数据管理系统评测基准是指一套可用于评测、比较不同数据库系统性能的规范,以客观、全面反映具有类似功能的数据库系统之间的性能差距,从而推动技术进步、引导行业健康发展.数据管理系统评测基准与应用息息相关:应用发展产生新的数据管理需求,继而引发数据管理技术革新,再催生多个数据管理系统/平台,进而产生新的数据管理系统评测基准.数据管理系统评测基准种类多样,不仅包括面向关系型数据的基准评测,还包括面向半结构化数据、对象数据、流数据、空间数据等非关系型数据的评测基准.在当今新的数据系统发展中,面向大数据管理系统的评测基准的研究热潮也如期而至.大数据评测基准研究与应用密切相关.总体而言,尽管已有的数据管理系统评测基准未能充分体现大数据的特征,但是从方法学层面而言,三十多年来数据管理系统评测基准的发展经验是开展大数据系统研发最值得借鉴和参考的,这也是该文的主要动机.该文系统地回顾了数据管理系统评测基准的发展历程,分析了取得的成就,并展望了未来的发展方向. 展开更多
关键词 评测基准 大数据 数据生成器 度量 工作负载
在线阅读 下载PDF
如何客观评测内存数据库的性能
2
作者 康强强 金澈清 +2 位作者 张召 胡华梁 周傲英 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第5期320-329,共10页
在过去的10年间,随着硬件技术不断发展,内存价格越来越低,许多计算机系统均布置了大容量内存.数据库系统开发商和研究人员认识到这一趋势,并开发出多款内存数据库产品,其特点在于先将数据装载到内存之中,再执行相应的数据管理任务.随着... 在过去的10年间,随着硬件技术不断发展,内存价格越来越低,许多计算机系统均布置了大容量内存.数据库系统开发商和研究人员认识到这一趋势,并开发出多款内存数据库产品,其特点在于先将数据装载到内存之中,再执行相应的数据管理任务.随着内存数据库的出现,如何客观、公正地评测它的性能显得愈发重要.尽管当前不乏关于关系型数据库系统的评测基准,例如威斯康星测试基准和TPC-X系列等,但是这些基准并未充分考虑内存数据库的重要特性,因此不适合评测内存数据库.本文提出了一种面向内存数据库的评测基准(InMemBench),与传统的关系数据库基准显著不同,它综合考虑了内存数据库特有的数据预取过程、物理组织方式和压缩能力等方面的重要特点.最后,本文还通过新基准比较了4款内存数据库的性能. 展开更多
关键词 内存数据库 评测基准 工作负载 度量
在线阅读 下载PDF
一种基于模式的实体解析算法 被引量:6
3
作者 刘辉平 金澈清 周傲英 《计算机学报》 EI CSCD 北大核心 2015年第9期1796-1808,共13页
实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录.当前主要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记... 实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录.当前主要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记录集合.然而,该方法的计算复杂度比较高(O(n2),其中n表示数据集合的规模),难以处理大型数据集合.另一种思路是基于分块的实体解析,它调用特定的分块函数(如哈希函数、滑动窗口技术等)将集合中较为相似的记录划分到同一个块中,再仅对属于同一块中的记录进行两两比较.这种方法显著降低了运行时间,但会损失部分精度,因为某些描述同一实体的记录可能没有被分到同一个块中.文中提出了一种基于模式的实体解析算法,通过将相似的记录合并成记录集合并尝试生成对应的记录模式,然后进行模式之间的两两比较来产生一个边界值,以确定对应的记录集合是否需要进行进一步的精确比较,从而判断是否属于同一个实体.与第一种方法相比,该方法可有效地过滤部分不可能相似的记录,从而避免了针对所有数据记录进行两两比较,显著地降低了时间复杂度;与第二种方法相比,该方法并不损失任何精度.基于真实和模拟数据集合的实验结果验证了新方法的执行效率和有效性. 展开更多
关键词 数据融合 数据清洗 实体解析 编辑距离 字符串相似度
在线阅读 下载PDF
面向内存计算的连接算法 被引量:6
4
作者 张磊 方祝和 +1 位作者 周敏奇 黄岚 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第5期180-191,共12页
内存和CPU技术的快速发展标志着内存计算时代的来临.本文系统地回顾了基于内存计算的连接算法,具体在嵌套循环连接、哈希连接、排序归并连接和单机环境、分布式环境两个分类的维度上分析了已有算法的优点与不足,展望了未来的研究方向,... 内存和CPU技术的快速发展标志着内存计算时代的来临.本文系统地回顾了基于内存计算的连接算法,具体在嵌套循环连接、哈希连接、排序归并连接和单机环境、分布式环境两个分类的维度上分析了已有算法的优点与不足,展望了未来的研究方向,最后介绍了基于Claims原型系统关于分布式连接方面的研究工作. 展开更多
关键词 数据库 内存计算 连接算法 硬件变革
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部