浅谈数据备份系统中的数据去重技术.doc浅谈数据备份系统中的数据去重技术摘要:本文讨论了目前数据备份系统中的几种数据去重技术,并分析了去重技术将面临的挑战,以期对数据去重技术做一个总结和展望。关键词:数据备份;数据去重;数据碎片;去重技术中图分类号: 文献标识码:A 文章编号: 1674-7712 ( 2012 ) 18-0043-01 一、数据去重技术(一)全局去重和局部去重技术。可分为全局去重和局部去重技术。全局去重主要应用在有多个去重设备的环境里,它会对多个已去重的库、目标和站点进行数据的比对, 然后对重复数据进行删除。它可以删除多节点间的冗余数据。使用全局去重后, 如果数据从第一个节点传递到第二个节点,那么第一个节点存储过的数据,第二个节点将不再存储。局部去重则不考虑多个节点间的冗余数据,它仅删除同一台机器、同一个客户端、或同一个存储节点上的冗余数据。这两种去重方式, 全局去重的压缩率要比局部去重的压缩率高, 因为全局去重比局部去重所删除掉的重复数据要多; 但是局部去重的开销要比全局去重的开销少,因为全局去重需要对多个存储节点上的数据进行查询, 删除多个节点之间存在的重复数据, 其带来的开销也会比局部去重大很多。也正是因为这一点, 很多公司, 实现的全局去重所关注的存储节点数也非常有限的。(二) 文件级和数据块级( 字节级) 去重技术。根据重复数据的鉴别粒度, 数据去重可分为文件级的去重技术( 单实例存储技术) 和数据块级(字节级)去重技术。文件级的重复数据去重技术使用哈希函数计算每个文件内容的哈希值, 然后根据索引检查需要备份的文件属性, 并与已经存储的文件进行比较, 如果两个文件的哈希值相同, 则删除相同内容的文件来减少数据存储量,节约存储空间,如果哈希值不同,就将其存储。数据块级的重复数据去重技术是在子文件的级别上运行的, 主要通过删除内容相同的数据块来减少数据量。正如它的名字, 文件或数据流通常在这里会被分割为较小的数据块(每个供应商检查的数据块大小不一,一些供应商固定数据块的大小, 一些则使用不同大小的块, 数据块的平均大小一般在 4KB ~ 8KB 左右) ,然后使用哈希函数求取每个数据块的哈希值, 这些哈希值常被称为数据块指紋。数据块指紋是用来唯一标识一个数据块的,具有相同指紋的两个数据块即为重复数据块。这两种去重技术, 其中文件级的重复数据去重技术能达到的压缩率较低, 因为它不能删除相似文件之间的重复数据。而数据块级的数据去重技术由于不仅能删除相同的文件, 还能删除相似文件中的相同数据块因此有较高的压缩率, 它是目前为止使用最广泛的数据去重技术。但是, 由于数据块级去重技术的鉴别和删除粒度更细, 因此它带来的开销也比文件级的更大。(三) 在线去重技术和离线去重技术。根据重复数据的删除时间划分, 数据去重技术可分为在线去重和离线去重技术。在线去重技术是指在数据到达存储设备之前就对重复数据进行查找和删除, 存储设备上不存储重复的数据块。由于査找和删除重复数据这一过程发生在数据写的关键路径上, 因而数据去重会对存储系统的存储性能产生一定的影响,严重的会影响存储系统的数据写性能。离线去重需要额外的存储空间做缓冲,是属于后处理的去重模式,在运行时不影响上层应用程序的存储性能,但需要额外的存储空间做缓冲区。目前, 数据备份系统一般都使用在线去重技术, 因为当前的
浅谈数据备份系统中的数据去重技术 来自淘豆网www.taodocs.com转载请标明出处.