下载此文档

数据去重中重复数据检测技术研究.docx


文档分类:IT计算机 | 页数:约4页 举报非法文档有奖
1/4
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/4 下载此文档
文档列表 文档介绍
数据去重中重复数据检测技术研究
随着信息技术的快速发展 , 各种应用产生的数据也呈现爆炸式增
长的趋势 , 这给数据的存储及备份造成一定的挑战。数据去重作为一
种冗余数据消除技术得到了学者及存储业界广泛的研究 , 特别是备份
系统 , 数据去重已成为系统中最为关键的技术之一。相对于传统的数
据压缩技术 , 数据去重技术更注重于发现系统中存在的冗余数据 , 对
冗余数据进行识别和消除 , 能以比压缩技术更高效地对冗余数据进行
识别和清理。利用数据去重技术 , 不仅可以大量减少所需的存储介质
降低数据存储成本 , 同时有效降低数据传输的过程中所需要的网络带
宽 , 提高数据传输的速度和效率。数据去重可部署于多种应用场景 ,
但由于应用类型的复杂性 , 设计一款高效的数据去重系统也面临诸多
的挑战。特别是重复数据检测技术 , 其去重率及性能指标直接影响到
数据去重的整体性能及去重效果。考虑到不同类应用产生的数据集 ,
其特征差异较大 , 无法用一种重复数据检测算法来优化所有数据集去
重。本文针对该问题开展重复数据检测算法研究。从冗余度来说 , 目
前数据大致可以分类两大类。 一类是高冗余数据集。 这种数据集多由
备份、快照、归档等应用产生。在这类高冗余数据集中 , 数据通常表
现出较强的相似性及数据局部性 , 如增量备份数据集 , 其主要呈现出
较强的数据局部性 , 而全量备份、快照等则更多地呈现出数据的相似
性。另一类数据集是冗余度相对较低的数据集 , 这类数据集内部含有
较少的重复数据 , 数据集整体数据冗余度不高 ( 相对备份数据集而言 )
针对以上特点 , 作者根据不同的数据集特点提出了三种不同的算法来
优化重复数据的检测。针对数据局部性较强的数据集 , 作者提出一种
高效的重复数据检索方法 HsDedup HsDedup同时利用布隆过滤器、
哈希表及各种缓存机制充分挖掘数据的时间局部性及空间局部性 , 提
高重复指纹的查找效率及指纹预取的准确性。具体的来说 , 对于数据
流中可能的重复数据,HsDedup首先利用布隆过滤器对数据块的重复
性进行预判 , 接下来根据不同的条件分别对缓存区的热区及冷区及磁
盘进行三级重复数据的检测 , 充分利用重复数据中的局部性 , 提升重
复数据的检测效能。从对HsDedupW测试来看,HsDedup比现有方案
有着更优的重复指纹检索性能。 针对于数据相似性较强的数据集类型
作者提出了一种高效指纹检索方案 RMD RM睬用布隆过滤器阵列及
数据相似算法,有效缩小指纹检索的范围。具体来说,RMD^J用数据相
似理论快速地定位相似的数据段 , 利用指纹容器对相似段中的指纹进
行吸收及聚合。 使指纹容器中

数据去重中重复数据检测技术研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数4
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2072510724
  • 文件大小66 KB
  • 时间2021-12-19