下载此文档

重复数据删除技术.doc


文档分类:办公文档 | 页数:约12页 举报非法文档有奖
1/12
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/12 下载此文档
文档列表 文档介绍
重复数据删除技术的发展及应用
Development and Application of De-Duplication Technology
2010-09-28
      作者:王树鹏
摘要:重复数据删除技术包括相同数据重复数据删除技术和相似数据重复数据删除技术。相同数据重复数据删除技术主要有:相同文件重复数据删除技术、固定长度分块的重复数据删除技术、基于内容分块的重复数据删除技术、基于滑动块的重复数据删除技术和基于数据特征的重复数据消除算法等。重复数据删除技术适合应用于数据备份系统、归档存储系统、远程灾备系统等场合。
关键字:重复数据删除;存储;智能压缩
英文摘要:Data de-duplication technology can be used to de-duplicate instances of the same data or similar data. Same data de-duplication includes de-duplication of fixed-length blocks, Content Defined Chunking (CDC), sliding blocks, and characteristic-based elimination of duplicate data algorithm. This technology is especially applicable in data backup systems, archival storage systems, and remote disaster recovery systems.
英文关键字:data de-duplication; storage; pression
 
基金项目:国家高技术研究发展(“863”)计划(2009AA01A403)
    重复数据删除也称为智能压缩或单一实例存储,是一种可自动搜索重复数据,将相同数据只保留唯一的一个副本,并使用指向单一副本的指针替换掉其他重复副本,以达到消除冗余数据、降低存储容量需求的存储技术。
    本文首先从不同角度介绍重复数据删除技术的分类,然后分别介绍相同数据重复数据删除技术和相似数据重复数据删除技术,并介绍重复数据消除的性能提升方法,最后分析重复数据技术的应用场景。
1 重复数据删除技术的分类
 
基于重复内容识别方法的分类
    (1)基于散列识别
    该方法通过数据的散列值来判断是否是重复数据。对于每个新数据块都生成一个散列,如果数据块的散列与存储设备上散列索引中的一个散列匹配,就表明该数据块是一个重复的数据块。Data Domain、飞康、昆腾的DXi系列设备都是采用SHA-1、MD-5等类似的散列算法来进行重复数据删除。
    基于散列的方法存在内置的可扩展性问题。为了快速识别一个数据块是否已经被存储,这种基于散列的方法会在内存中拥有散列索引。随着数据块数量增加,该索引也随之增长。一旦索引增长超过了设备在内存中保存它所支持的容量,性能会急速下降,同时磁盘搜索会比内存搜索更慢。因此,目前大部分基于散列的系统都是独立的,可以保持存储数据所需的内存量与磁盘空间量的平衡。这样的设计使得散列表就永远不会变得太大。
    (2)基于内容识别
    该方法采用内嵌在数据中的文件系统的元数据识别文件,与其数据存储库中的其他版本进行逐字节地比较,找到该版本与第一个已存储版本的不同之处并为这些不同的数据创建一个增量文件。这种方法可以避免散列冲突,但是需要使用支持该功能的应用设备以便设备可以提取元数据。
    (3)基于ProtecTier VTL的技术
    这种方法像基于散列的方法产品那样将数据分成块,并且采用自有算法决定给定的数据块是否与其他数据块的相似,然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被存储。
 
基于去重粒度的分类
    (1)全文件层次的重复数据删除
    以整个文件为单位来检测和删除重复数据,计算整个文件的哈希值,然后根据文件哈希值查找存储系统中是否存在相同的文件。这种方法的好处是在普通硬件条件下计算速度非常快;这种方法的缺点是即使不同文件存在很多相同的数据,也无法删除文件中的重复数据。
    (2)文件块消冗
    将一个文件按不同的方式划分成数据块,以数据块为单位进行检测。该方法的优点是计算速度快、对数据变化较敏感。
    (3)字节级消冗
    从字节层次查找和删除重复的内容,一般通过差异压缩策略生成差异部分内容。字节级消冗的优点是去重率比较高,缺点就是去重速度比较慢。
 
基于消冗执行次序的分类
  

重复数据删除技术 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数12
  • 收藏数0 收藏
  • 顶次数0
  • 上传人mh900965
  • 文件大小112 KB
  • 时间2018-03-10