下载此文档

数据仓库中ETL 技术的研究与改进.pdf


文档分类:IT计算机 | 页数:约3页 举报非法文档有奖
1/ 3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/ 3 下载此文档
文档列表 文档介绍
第 28卷第 19期甘肃科技 Vol28 No19
2012年 10月 GansuScienceandTechnology Oct 2012
数据仓库中 ETL技术的研究与改进
白果,贾玉文
(辽宁师范大学管理学院,辽宁大连 116000)
摘要:ETL是数据仓库构建中的核心环节,通过对传统的 ETL架构体系的介绍,从数据抽取、数据转换等方面对
ETL过程进行了改进,让数据转换环节在数据抽取和数据清洗加载的过程中同时进行,并增加了一个临时存储区,以
此来缓解在数据抽取和转换过程中由于数据量太大或过于复杂而引起的数据拥堵和冗余的现象。通过改进后的
ETL系统,可以提高整个数据仓库运行的效率,大大改善运行速度,提高了数据仓库的数据质量。
关键词:ETL;数据仓库;数据转换;数据清洗;数据装载;异构数据源
中图分类号:TP311
信息在企事业单位的建设中起着至关重要的作取、识别、整理、规范和存储等进行的一系列相关操
用,如何快速有效的获取对企业最有利的信息,并在作,并在此基础上实现高效的查询和比较,从而满足
大量纷繁复杂的信息资源中提取对企业发展有前瞻我们相应的在数据挖掘和知识发现等方面的需求。
性的部分,将逐渐成为发展的必要。近年来,随着经其主要目的就是实现多种异构数据源形式和内容的
济的发展,各行各业在信息化建设中,积累了大量纷统一,是数据集成的一个工具,为整个数据仓库、数
繁复杂的数据,包括形式各异的数据表,数据库,以据挖掘和知识服务体系做准备,并以最小的代价将
及各种数据文件等,由于异构数据源种类复杂,企业对日常业务操作中的各种异构数据源尽可能地转化
急需建设自己的数据仓库,进行生产经营决策和行为业务工作者所需的数据,以提高数据的质量,针对
业等方面的宏观调控,来更好的指引自身的建设。数据仓库而存储有效数据。
由于异构数据源种类多而且复杂,数据源形式多种数据抽取是建设数据仓库的第一步。由于数据
多样,而且获取数据的途径不同,必然会引起数据的仓库所需信息量非常大,这就需要从不同的数据平
千差万别,以及各种形式的脏数据的产生,因此在保台(包括各种数据源表、数据库和形式各异的数据
证数据源的准确、可靠统一性,数据质量的可提取性文件等)上进行完全性或差异性的抽取。数据来源
问题等方面就显得比较必要。ETL的建设在整个数广泛,必然存在各种各样形式上或内容上不完全或
据仓库建设中起着至关重要的作用,是整个数据仓错误的数据,即所谓的“脏数据”。在数据仓库中为
库建设的灵魂。ETL流程的实现同时也是最复杂的了保证数据内容的准确性和数据格式的一致性,必
工作之一,ETL规则的设计和实施的工作量要占到然要对这些数据进行一致性的控制和清洗,即通常
整个数据库项目建设的 70%以上。我们所说的数据清洗阶段。数据转换指对不同数据
分区中经过清洗后的数据进行有选择性的组合和转
1 ETL的基本实现过程及传统体系结换,如数据的格式化,关键数据的重新构建和数据总
构结,数据定位等,从而得到一致性的符合用户要求的
11 ETL的基本概念及实现过程数据;数据装载指将经过数据清洗后得到的一致性
ETL指对数据所进行的抽取(Extral),转换数据经过部分选择装载到指定的数据表或者目标数

数据仓库中ETL 技术的研究与改进 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数 3
  • 收藏数 0 收藏
  • 顶次数 0
  • 上传人 799474576
  • 文件大小 0 KB
  • 时间2013-08-06
最近更新