-
题名分布式数据库的文本数据去重备份方法研究
被引量:2
- 1
-
-
作者
杨芳权
-
机构
重庆人文科技学院计算机工程学院
-
出处
《科技通报》
2018年第1期164-167,共4页
-
文摘
以分布式数据库文本数据为研究对象,提出基于分类特征的改进共享最近邻方法对数据实现去重备份处理。根据文本数据内容先划分到预设定类别中,利用特征词条到实数的映射即特征选择函数进行特征选择,按照一定准则从初始特征中选取具有强分类能力的特征,通过计算某训练集中各个词条特征选择函数参数值,获取参数值低于阈值的词条。利用哈希思想将文本空间相邻2个数据点实现指纹空间变换,转换空间后保持数据点相近,通过共享最近邻方法对相近指纹文本数据聚类,对聚类后数据进行迭代增删处理。实验证明,运用文中方法可对文本数据实现快速去重备份,有效解决数据占用空间问题。
-
关键词
分布式数据库
数据占用空间
文本数据
去重备份
-
Keywords
Distributed database
data occupation space
text data
de-duplicate backup
-
分类号
TP309.3
[自动化与计算机技术—计算机系统结构]
TP311.13
[自动化与计算机技术—计算机软件与理论]
-