数据去重中重复数据检测技术研究
随着信息技术的快速发展 , 各种应用产生的数据也呈现爆炸式增
长的趋势 , 这给数据的存储及备份造成一定的挑战。数据去重作为一
种冗余数据消除技术得到了学者及存储业界广泛的研究 , 特别是备份
系统 , 数据去重已成为系统中最为关键的技术之一。相对于传统的数
据压缩技术 , 数据去重技术更注重于发现系统中存在的冗余数据 , 对
冗余数据进行识别和消除 , 能以比压缩技术更高效地对冗余数据进行
识别和清理。利用数据去重技术 , 不仅可以大量减少所需的存储介质
降低数据存储成本 , 同时有效降低数据传输的过程中所需要的网络带
宽 , 提高数据传输的速度和效率。数据去重可部署于多种应用场景 ,
但由于应用类型的复杂性 , 设计一款高效的数据去重系统也面临诸多
的挑战。特别是重复数据检测技术 , 其去重率及性能指标直接影响到
数据去重的整体性能及去重效果。考虑到不同类应用产生的数据集 ,
其特征差异较大 , 无法用一种重复数据检测算法来优化所有数据集去
重。本文针对该问题开展重复数据检测算法研究。从冗余度来说 , 目
前数据大致可以分类两大类。 一类是高冗余数据集。 这种数据集多由
备份、快照、归档等应用产生。在这类高冗余数据集中 , 数据通常表
现出较强的相似性及数据局部性 , 如增量备份数据集 , 其主要呈现出
较强的数据局部性 , 而全量备份、快照等则更多地呈现出数据的相似
性。另一类数据集是冗余度相对较低的数据集 , 这类数据集内部含有
较少的重复数据 , 数据集整体数据冗余度不高 ( 相对备份数据集而言 )
针对以上特点 , 作者根据不同的数据集特点提出了三种不同的算法来
优化重复数据的检测。针对数据局部性较强的数据集 , 作者提出一种
高效的重复数据检索方法 HsDedup HsDedup同时利用布隆过滤器、
哈希表及各种缓存机制充分挖掘数据的时间局部性及空间局部性 , 提
高重复指纹的查找效率及指纹预取的准确性。具体的来说 , 对于数据
流中可能的重复数据,HsDedup首先利用布隆过滤器对数据块的重复
性进行预判 , 接下来根据不同的条件分别对缓存区的热区及冷区及磁
盘进行三级重复数据的检测 , 充分利用重复数据中的局部性 , 提升重
复数据的检测效能。从对HsDedupW测试来看,HsDedup比现有方案
有着更优的重复指纹检索性能。 针对于数据相似性较强的数据集类型
作者提出了一种高效指纹检索方案 RMD RM睬用布隆过滤器阵列及
数据相似算法,有效缩小指纹检索的范围。具体来说,RMD^J用数据相
似理论快速地定位相似的数据段 , 利用指纹容器对相似段中的指纹进
行吸收及聚合。 使指纹容器中
数据去重中重复数据检测技术研究 来自淘豆网www.taodocs.com转载请标明出处.