下载此文档

多角度认识重复数据删除.doc


文档分类:论文 | 页数:约3页 举报非法文档有奖
1/3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/3 下载此文档
文档列表 文档介绍
多角度认识重复数据删除
重复数据删除是推动基于磁盘备份的一个技术动力。对于数据存储来说,重复数据删除是一个识别数据集中的冗余并消除这些冗余的过程。重复数据删除操作可能发生在这个流程中的很多个点,主要取决于厂商和具体情况。例如,在备份中,重复数据删除可能发生在数据发送到备份服务器(有时称为“源”)或者备份设备接收数据副本(称为“目标”)的时候。在针对灾难恢复的复制中,重复数据删除可能发生在数据发送到灾难恢复站点以避免不必要的带宽消耗时。不少行业专家都提供了关于在何处实施重复数据删除是最理想的选择,但是现在我们先把这些都放在一边,把重点放在重复数据删除是什么这个问题上。这是了解重复数据删除的价值和适用对象的第一步。
不管在哪里实施,重复数据删除解决方案的步骤都是类似的。接收到的数据被分割成文件或者更小的子集,有些情况下这些是固定的,有些系统是可变的。这些数据子集经过一种提供了特殊标识符的哈希算法进行处理,可以被看作是一个“标记”或者序号。然后把这种特殊的标识符与其他从之前保存过的数据所生成的标识符进行对比。当冗余数据被删除掉的时候,重复数据删除就生效了。例如,如果当重复数据删除发生在接收数据而不是找到标识符的时候,接收到的数据就不会被保存,而是创建一个指向现有数据的连接。如果标识符查找任务添加到查找表格的过程中找到了标识符,那么数据就会被保存下来。如果重复数据删除发生在单独的后处理流程中,那么会首先保存冗余数据,然后在后处理流程中删除掉。
虽然重复数据删除流程中有很多小的变量,但这就是它的运作方式。识别冗余的颗粒度以及查看流程的速度是非常重要的,也是不同厂商产品的一个关键区别。
例如,文件层级的重复数据删除不要求太多软件方面的操作,也不会有识别文件中冗余片段之后的数据删除操作。如果连续两天将相同的数据库拷贝到一台重复数据删除设备上的话,那么文件级重复数据删除设备将会看到两份单独的文件。相同情况下,一个片段层级的重复数据删除设备中会看到一样的文件,如果发生变更就只保存变更数据,同时创建一个指向冗余数据的指针。
这种指针就像是一个关联数据库不会拷贝每个发票中的用户信息,而是创建一个指针,从一个独立的表格中调用用户的信息。重复数据删除系统实际上就是把文件中的片段当作一个关联数据库。
重复数据删除的用户
显而易见,要使用重复数据删除就必须有冗余的数据。恐怕数据中心中没有哪个存储库的冗余数据要比备份存储更多的了。大多数数据中心每周或者每月会进行一次全面备份,而且这些备份中大多数数据都是与上一次全面备份的数据是相同的。这就是重复数据删除主要针对的领域,也是这个市场为什么成为重复数据删除技术应用第一个落脚点的原因。
随着重复数据删除逐渐在市场中普及,人们也开始对在备份流程中使用SATA磁盘越来越感兴趣。问题是,尽管新的SATA技术的成本要比光纤通道低很多,但是不会比磁带更低。如果使用
磁盘,那么它的主要功能就是作为暂时保存副本、然后将数据发送到磁盘的缓存。
这个策略令人失望的一点是,尽管磁盘备份可以缩短备份窗口时间,但是其他一些瓶颈会削弱使用磁盘的效果,例如网络速度和备份客户生成数据流的能力。
磁盘备份的优势在恢复方面表现得更加明显一些。使用磁盘,你不需要挨个地搜索磁带寻找数据,你可以直接定位到数据的保存位置。这就避免了恢复流程中速度最慢的一部分

多角度认识重复数据删除 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息