下载此文档

ETL数据抽取实施方案简介.docx


文档分类:IT计算机 | 页数:约10页 举报非法文档有奖
1/10
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/10 下载此文档
文档列表 文档介绍
ETL数据抽取实施方案简介.docx精品文档
精品文档
1
精品文档
ETL数据抽取方案简介
目 录
ETL简介 3
ETL抽取方案 4
1. 数据抽取 4
2. 数据转换和加工 8
3. 数据装载 9
4. 时TL操作均删除目标表数据,由 ETL全新加载数据。
优点:ETL加载规则简单,速度快。
缺点:对于维表加外键不适应,当业务系统产生删除数据操作时,
综合数据库将不会记录到所删除的历史数据,不可以实现数据的递增加
载;同时对于目标表所建立的关联关系,需要重新进行创建。
全表比对方式
全表比对的方式是 ETL工具事先为要抽取的表建立一个结构类似
的临时表,该临时表记录源表主键以及根据所有字段的数据计算出来,
每次进行数据抽取时,对源表和临时表进行的比对,如有不同,进行
Update 操作,如目标表没有存在该主键值,表示该记录还没有,即进
行Insert操作。
优点:对已有系统表结构不产生影响,不需要修改业务操作程序,
精品文档
精品文档
9
精品文档
所有抽取规则由ETL完成,管理维护统一,可以实现数据的递增加载,
精品文档
精品文档
10
精品文档
没有风险。。
缺点:ETL比对较复杂,设计较为复杂,速度较慢。与触发器和时
间戳方式中的主动通知不同,全表比对方式是被动的进行全表数据的比
对,性能较差。当表中没有主键或唯一列且含有重复记录时,全表比对
方式的准确性较差。
日志表方式
在业务系统中添加系统日志表,当业务数据发生变化时,更新维护
日志表内容,当作ETL加载时,通过读日志表数据决定加载那些数据及
如何加载。
优点:不需要修改业务系统表结构,源数据抽取清楚,速度较快。
可以实现数据的递增加载。
缺点:日志表维护需要由业务系统完成,需要对业务系统业务操作
程序作修改,记录日志信息。日志表维护较为麻烦,对原有系统有较大
影响。工作量较大,改动较大,有一定风险。
Oracle变化数据捕捉(CDC方式)
通过分析数据库自身的日志来判断变化的数据。 Oracle的改变数据
捕获(CDC,ChangedDataCapture)技术是这方面的代表。 CDC特
性是在Oracle9i 数据库中引入的。CDC能够帮助你识别从上次抽取之
后发生变化的数据。利用CDC,在对源表进行insert、update 或delete
等操作的同时就可以提取数据,并且变化的数据被保存在数据库的变化
表中。这样就可以捕获发生变化的数据,然后利用数据库视图以一种可
精品文档
精品文档
11
精品文档
控的方式提供给目标系统。 CDC体系结构基于发布/订阅模型。发布者
精品文档
精品文档
10
精品文档
捕捉变化数据并提供给订阅者。订阅者使用从发布者那里获得的变化数
据。通常,CDC系统拥有一个发布者和多个订阅者。发布者首先需要
识别捕获变化数据所需的源表。然后,它捕捉变化的数据并将其保存在
特别创建的变化表中。它还使订阅者能够控制对变化数据的访问。订阅
者需要清楚自己感兴趣的是哪些变化数据。一个订阅者可能不会对发布
者发布的所有数据都感兴趣。订阅

ETL数据抽取实施方案简介 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数10
  • 收藏数0 收藏
  • 顶次数0
  • 上传人春天的故事
  • 文件大小60 KB
  • 时间2022-02-17