计算机技术与发展
第 28 卷 第 2 期 Vol.28 No.2
年 月
2018 2 COMPUTER TECHNOLOGY AND DEVELOPMENT Feb. 2018
基于聚类的重复数据去冗算法的研究
刘 赛1,聂庆节1,刘 军1,王 超2,李 静2
( 1.南瑞集团公司,江苏 南京 210003;
2.南京航空航天大学 计算机学院,江苏 南京 211106)
,
摘 要: 数据的损坏和丢失会带来无法弥补的损失 数据备份系统可以将损失降到最低程度。随着收集的数据量的迅速增
, , ,
加 备份系统需要备份与恢复的数据也迅速增加 然而备份文件之间的相似度超过 60% 全部存储在硬盘上十分浪费存储空
, ,
间 故提出了一种基于 K-medoids 聚类的 DELTA 压缩方法 用来去除备份数据中的重复数据。该方法首先对文件进行切割
, , ,
分块 通过对文件块进行两两 DELTA 压缩 得出各自压缩文件的大小 作为两个文件块之间的相似度。通过得到的相似度
,
基于聚类的重复数据去冗算法的研究 来自淘豆网www.taodocs.com转载请标明出处.