国防科学技术大学研究生院学位论文
摘要
数据获取过程是构建数据仓库的核心和灵魂,是负责完成数据从数据源向目标数据仓
库转化的过程,是实施数据仓库的重要步骤。本文设计并实现了数据获取系统,主要研究
数据获取中的两个关键技术数据源增量数据获取技术和相似重复一记录检测技术。
在数据源增量数据获取技术研究中,通过对几种快照差分算法进行理论研究及实验分
析,了解掌握了它们的适用范围、处理速度及精度对于有日志系统支持的数据源,分析
了数据库的日志记录内容,分析了获取增量数据的流程。考虑到
项目的一些缺陷,做出一些改进调整了监视对象粒度,支持对某个源表字段的监视,过
滤掉那些无关的数据变化,可以提高监视的效率提供可定义的监视规则,其中包括了检
测分析周期等,监视器就按照这些规则检测分析和报送数据源的变化,使得数据仓库更新
策略更加符合数据仓库应有的特性。
在重复记录检测方法的研究中,提出一种高效的基于条件概率分布的相似重复记录检
测方法,采用二次聚类方法,即首先选用一种低价的距离度量方法将整个数据集划分为几
个大类,然后使用更严格的距离度量方法和聚类算法进行分类。使用该方法,对仿真数据
进行了实验,获得了比较好的聚类结果。
关键字数据获取快照差分相似重复记录检测字符串距离度量动态聚类
概率后缀树
第页
国防科学技术大学研究生院学位论文
她
、二抖
第页
独创性声明
本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得
的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含
其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它
教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任
何贡献均已在论文中作了明确的说明并表示谢意。
学位论文题目数据仓库的数据获取关键技术研究
学位论文作者签名啦乳日期咤年月滓日
学位论文版权使用授权书
本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权
国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子
文档,允许论文被查阅和借阅可以将学位论文的全部或部分内容编入有关数据
库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。
保密学位论文在解密后适用本授权书。
学位论文题目数据仓库的数据获取关键技术研究
学位论文作者签名根日期纳考年‘,月限日
作者指导教师签名日期年‘月学日
国防科学技术大学研究生院学位论文
图目录
图
军用海量异构数据集成与共享技术研究总体图
图
工项目的数据仓库构造过程,二,‘,,,
图‘叼
快照差分检测方法说明⋯⋯卜月
图,
各种算法消耗的工量比较⋯‘
口
图
基于日志的检测分析说明⋯
,
‘
图数据库的日志分析流程二‘
勿八
口
图内容二,⋯,,⋯,二,,二‘甲二“,,二‘,, ‘
图内容二卜⋯⋯,⋯⋯,⋯⋯, ,
图数据库的日志分析流程⋯⋯,⋯⋯,⋯, ,,,二⋯︸
图数据获取系统结构图⋯、, ⋯⋯,⋯,⋯,⋯, , ﹄
自月
乙﹃
图简单数据转换模块结构图⋯⋯‘二‘⋯⋯』,,,⋯⋯,
八孟
﹃
图简单数据转换功能模块图‘,,,,, 二,‘,,⋯、,,,,‘︺
。仄
︺曰
图数据源监视模块结构图⋯⋯,⋯⋯‘二,,⋯
乙曰只
图检测分析模块结构图“,二⋯‘‘,,,⋯““,‘,
。
︺︸
图重复记录检测模块结构图⋯⋯卜⋯,⋯⋯卜⋯⋯,
自门
刁
图带有仿射的字符串距离产生模型⋯⋯‘
八
图产生式模型的训练算法⋯⋯‘,,, 二, 二,‘,,⋯⋯, ,
自内
图字符串生成的后缀树⋯⋯,⋯⋯,二,⋯⋯,
飞门
口
图基于距离的字符串匹配算法比较、,⋯,,⋯,,‘,,“,二,
马洲八
图基于标记的字符串匹配算法比较⋯⋯卜⋯⋯,⋯
门
图几种高性能的字符串算法比较,⋯, ⋯,⋯,⋯,二,, 。门
尸八
图不同数据规模下算法的检测精度一‘⋯,⋯⋯,⋯
门
图不同数据规模下的算法运行速度⋯⋯, ⋯,, ﹄
八
门必
图在不同错误类型下比较算法检测精度⋯,,,,,二,,‘二下,⋯, 卜
,
们
图不同的数据规模下比较算法运行时间,卜⋯卜⋯⋯
数据仓库的数据获取关键技术的研究(可复制毕业论文) 来自淘豆网www.taodocs.com转载请标明出处.