第 卷 第 期 科 技 通 报
34 1 Vol. 34 No. 1
2018 年 1 月 BULLETIN OF SCIENCE AND TECHNOLOGY Jan. 2018
分布式数据库的文本数据去重备份方法研究
杨芳权
,
重庆人文科技学院 计算机工程学院 四川 重庆 401524
摘 要 以分布式数据库文本数据为研究对象,提出基于分类特征的改进共享最近邻方法对数据实现去重备份处
, ,
理。根据文本数据内容先划分到预设定类别中 利用特征词条到实数的映射即特征选择函数进行特征选择 按照
一定准则从初始特征中选取具有强分类能力的特征,通过计算某训练集中各个词条特征选择函数参数值,获取参
,
数值低于阈值的词条。利用哈希思想将文本空间相邻 2 个数据点实现指纹空间变换 转换空间后保持数据点相
, , ,
近 通过共享最近邻方法对相近指纹文本数据聚类 对聚类后数据进行迭代增删处理。实验证明 运用文中方法可
,
对文本数据实现快速去重备份 有效解决数据占用空间问题。
关键词 分布式数据库 数据占用空间 文本数据 去重备份
分布式数据库的文本数据去重备份方法研究 来自淘豆网www.taodocs.com转载请标明出处.