下载此文档

重复数据删除技术的原则及方法.doc


文档分类:IT计算机 | 页数:约3页 举报非法文档有奖
1/3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/3 下载此文档
文档列表 文档介绍
重复数据删除技术的原则及方法
数据如潮水般涌向企业。存储管理员不断努力地处理日益激增的数据,比如,文本、声频、视频、图像,还有不断增加的大容量邮件附件。存储这些数据并不是最佳的解决方案——存储需要投入成本,大量的文件最终将会加重企业数据备份以及灾难恢复系统(DR)的负担。企业与其寻求更多的存储数据的不同方式,还不如转向重复数据删除技术,以存储更少的数据。近来新兴的重复数据删除(Data De-duplication)就是数据删减方案的重要一环。
了解重复数据删除
基本而言,重复数据删除就是减小存储空间的一种方式。它通过删除冗余数据,确保只将单一的数据实例保存在存储介质中,比如,磁盘或磁带。删除的冗余数据将被一个指针替而代之,指向保存的单一数据。有时候重复数据删除也被称为智能数据压缩或者单一实例存储,通常是和其他的数据删减技术一起使用的。传统的压缩方式已经使用了将近三十年,它将数学算法应用到数据,以简化大容量或重复的文件——有效地将文件压缩变小。与此相似的是,差分delta减小存储总量是通过比较重复的新旧文件,只存储修改过的数据。将二者合二为一,就能非常有效地优化存储空间的使用。
如果施行恰当,重复数据删除可以降低对存储空间的大量需求,从而减少在磁盘上的花费。更有效地利用磁盘空间,就能够延长磁盘保存期限,这样,提供了更好的恢复时间目标(RTO),更长的备份时间,并降低了磁带备份的需求。同时,重复数据删除还可以缩减必须通过无线网络传送来实现远程备份、复制和灾难恢复的数据。
重复数据删除主要是基于文件、块甚至是位进行操作的。相对而言,文件的重复删除较易于理解——如果两个文件完全相同,其中的一个文件备份将被保存,而随后与之重复的文件将获取指向保存文件的指针。不过,文件重复删除并不最有效,因为哪怕文件只更改了一个字节,也会被作为另外一个不同的文件全部保存下来。基于块和位的重复删除通过对文件进行比较,只保存每一块的单一重复部份。如果文件更新,那么只有更改的数据才会被保存。这样,基于块和位的重复数据删除可以发挥更为有效的作用。GlassHouse Technologies公司主管数据保护的副总裁W. Curtis Preston说,“在典型的存储环境中,它(块重复删除)所节省的存储空间带来了巨大的差异”。其他的分析家指出重复删除技术的压缩比能够达到10:1到50:1。不过,基于块和位的重复数据删除增加消耗,并且需要建立一个更大的索引库去追踪独立的块。
重复数据删除平台必须解决“散列冲突”(hash collisions)的问题。每一个数据块通过散列算法(例如MD5或者SHA-1),为每一个数据产生一个特定的散列值。然后,将这个散列值与现有的散列值索引进行比较。如果它已经存在于索引中,,那么这个数据就是重复的,不需要进行存储。否则,这个新的散列值将被添加到索引中,这个新的数据也因此被存储。一般而言,散列算法很少会将两个不同的数据块产生出相同的值。当这样的“散列冲突”发生时,系统就不会存储新的数据,因为系统看到同一个散列值已经存在。这被称为“false positive”(错误的确定),会导致数据丢失。一些厂商结合不同的散列算法,以降低散列冲突的可能性。另一些厂商还会检查元数据来确认数据,避免散列冲突。
实施重复数据删除
一般情况下,重复数据删除过程是

重复数据删除技术的原则及方法 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息