下载此文档

ETL方法介绍(精选).ppt


文档分类:办公文档 | 页数:约32页 举报非法文档有奖
1/32
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/32 下载此文档
文档列表 文档介绍
中国人民保险公司 保险数据模型及业务标准化 –数据模型及业绩指标和风险测算分析–
ETL方法介绍
2004年4月15日
内容
ETL基本概念
ETL过程讲解
ETL总体架构
ETL开发方法
2
中国人民保险公司保险数据模型及业务标准化| 保密| 2017/7/15
ETL基本概念--主要目的
将源系统数据经过抽取/转换过程,最终装载到目标系统
将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据
3
中国人民保险公司保险数据模型及业务标准化| 保密| 2017/7/15
ETL基本概念--术语解释
ETL
Extract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载(Load)的过程
DW
DataWarehousing,,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”
MetaData
元数据,就是描述数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据
4
中国人民保险公司保险数据模型及业务标准化| 保密| 2017/7/15
ETL基本概念--数据仓库中的位置
5
中国人民保险公司保险数据模型及业务标准化| 保密| 2017/7/15
ETL基本概念--数据质量
正确性(Accuracy):数据是否正确体现在现实或可证实的来源
完整性(Integrity):数据之间的参照完整性是否存在或一致
一致性(Consistency):数据是否被一致的定义或理解
pleteness):所有需要的数据是否都存在
有效性(Validity):数据是否在企业定义的可接受的范围之内
时效性(Timeliness):数据在需要的时间是否有效
可获取性(Accessbility):数据是否易于获取、易于理解和易于使用
6
中国人民保险公司保险数据模型及业务标准化| 保密| 2017/7/15
ETL基本概念--数据质量原因
业务系统不同时期数据模型不一致
业务系统不同时期业务过程有变化
各个源系统之间相关信息不一致
遗留系统和新业务、管理系统数据集成不完备带来的不一致性
源系统缺少输入验证过程,不能阻止非法格式的数据进入系统
可以验证但不能改正数据,验证程序不能发现格式正确但内容不正确的错误
源系统不受控制的更改,而这种更改不能及时的传播到受影响的系统
数据由多个交叉的访问界面,难以统一管理数据质量问题
缺少参照完整性检查低劣的源系统设计
数据转换错误,比如ETL过程错误或数据迁移过程的错误
源系统与数据仓库系统的数据组织方式完全不同
7
中国人民保险公司保险数据模型及业务标准化| 保密| 2017/7/15
ETL基本概念--数据转换
空值处理
规范化数据格式
拆分数据
验证数据合法性
数据替换
实现数据规则过滤
数据排序
数据类型统一转换
... ...
8
中国人民保险公司保险数据模型及业务标准化| 保密| 2017/7/15
ETL过程讲解--逻辑架构
9
中国人民保险公司保险数据模型及业务标准化| 保密| 2017/7/15
ETL过程讲解-- Extract
设计原则
为提高ETL效率,数据在进入ETL系统后的EXF文件都将转换为Flat Text文件格式
从ETL程序设计的灵活性和整体结构的一致性考虑,尽量采用Pull的方式,减少对源系统的影响和对其他开发队伍的依赖,并减少网络压力
由于Batch Windows的限制,如果日源数据量大于5GB则必须考虑采用Push的方式以提高传送速度,如,可以由源系统将数据转换为Flat Text文件后,由ETL程序采用FTP的方式进行传送
EXF的文件格式接近数据源的数据结构定义
在Extract过程中过滤数据仓库不需要的数据记录和字段
Push和Pull
Push
在源系统上根据定义的数据格式将每日增量数据生成数据文件,再通过FTP或文件拷贝的方式传送给ETL程序处理
Pull
由ETL程序通过DRDA或ODBC等数据库协议直接访问源数据库获取所需数据进行处理
10
中国人民保险公司保险数据模型及业务标准化| 保密| 2017/7/15

ETL方法介绍(精选) 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数32
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zhangkuan1439
  • 文件大小0 KB
  • 时间2015-10-19