下载此文档

商务智能教学课件:03 Data Warehouse 2.ppt


文档分类:IT计算机 | 页数:约55页 举报非法文档有奖
1/55
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/55 下载此文档
文档列表 文档介绍
数据仓库 Data Warehouse
数据仓库
从数据库到数据仓库
数据仓库及其四大特征
数据仓库的基本结构
数据集市与数据仓库
数据仓库的应用
*
*
数据仓库的结构
*
数据仓库的关键技术
数据的ETL,从而导致在线环境一直处于忙碌状态,进而挤掉其它的处理活动
经常需要进行数据的汇总。多个操作型记录被合成单个简单的记录,那些需要汇总的详细的输入记录必须进行正确的排序。当把不同类型的记录汇总为一个数据仓库记录时,必须对这些不同输入记录类型的到达次序进行协调,以便产生一个单一记录
在数据元素从操作型环境转移到数据仓库的过程中,应该对数据元素的重命名操作进行跟踪。
需要读取的输入记录常常具有不常见的或非标准的格式,在进入数据仓库时必须要对它们进行转换。必须指定转换逻辑,转换机制(转换前后看上去应该是什么样子)
*
*
转换和集成的复杂性(4/4)
必须理解并弄清楚建立在操作性应用程序逻辑中的数据之间的关系,这样这些数据记录才可以用来作为输入。而这些关系常常是深奥难懂的,并且没有可供参考的文档资料。但是当数据转移到数据仓库时,必须弄清楚这些关系。
必须要进行数据编码的转换,如EBCDIC到ASCII的转换(或反过来)。
数据仓库的设计必须符合企业的数据模型。
当数据从操作型环境(反映当前)转移到数据仓库(反映历史)中,可能需要加入时间元素。
数据仓库着眼于企业信息化,操作型数据环境着眼于事务。
必须考虑将要进入数据仓库的新创建记录的输出问题。
*
数据刷新
数据仓库系统必须能够感知到在OLTP数据库中数据的变化情况,并及时有效地把这些变化反映到数据仓库中去,以使得数据仓库中的数据能真实地反映实际情况,因此必须对数据仓库进行数据刷新。
一般数据刷新的方法包括:
时间戳
DELTA文件
建立映象文件
日志文件
在一个数据仓库系统中,可以同时采用上述的四种数据刷新方式,以满足不同数据源的数据刷新需要。
*
DELTA文件
适用情况
有些基于OLTP数据库的操作型应用程序在工作过程中会形成一些DELTA文件以记录该应用所作的数据修改操作,可根据该DELTA文件进行数据刷新。
优点
采用此方法可避免对整个数据库的对比扫描,具有较高的刷新效率。
缺点
这样的应用程序并不普遍,修改现有的应用程序的工作量又太大。
*
建立映象文件
实现方法
在上一次数据刷新后对数据库作一次快照
在本次刷新之前再对数据库作一次快照
比较两个快照的不同,从而确定数据仓库的数据刷新操作
优点
对于数据库和操作型应用无特别要求
缺点
需要占用大量的系统资源
可能较大地影响原有数据库系统的性能
*
日志文件
实现方法
一般来说,现代OLTP数据库都有日志文件,可根据OLTP数据库的日志信息来实现数据仓库的数据刷新。
优点
日志是OLTP数据库的固有机制
不会影响原有OLTP数据库的性能
具有比DELTA文件和建立映象文件更高的刷新效率
缺点
无法应用于无日志文件机制的遗留数据库系统等
*
数据周期
所谓数据周期是指从操作型环境中的数据发生变化起,到这个变化反映到数据仓库中所用到的时间。通常,数据周期应该不低于24个小时,因为:
操作型环境与数据仓库环境结合得越紧密,那么所需技术也就越昂贵越复杂。
一个更有说服力的原因是:时间间隔给环境附加了一个特殊的限制。间隔24小时,使得不必要在数据仓库环境中做操作性处理;也不必在操作型环境做数据仓库处理,间隔如果太短了可能会达不到这种效果。时间间隔的一个好处是能够保证在转入到数据仓库之前,数据可以达到稳定。数据在进入数据仓库之前进行调整十分简单。而如果数据被送到数据仓库中之后,一旦发现必须对这些数据进行调整,就必须在操作型环境和数据仓库中同时调整。
*
ETL工具
抽取/转换/装载工具(ETL)的出现,通常分为两类:
产生源代码的软件
产生参数化的运行时模块的软件
产生源代码的软件比运行时软件要强大,它可以以原有数据的格式对它们进行访问
而运行时软件则需要首先对原有数据格式进行统一。进行了统一之后,运行时模块就可以访问原有数据。不幸的是,对原有数据格式进行统一的过程颇费心思
在两种情况下,ETL软件都可以使得转换、重新格式化、从多个传统操作型数据源中集成数据的过程自动进行
数据仓库中的数据及数据管理
数据仓库中的数据
数据仓库为企业管理人员的分析、决策操作提供统一、集成的基础数据,包括:
企业内部各个部门当前及其历史上的细节性业务数据
以及为了进行分析决策操作而生成的分析型数据
对数据仓库中数据的管理
数据仓库中的数据是一个统一、集成、单一的庞大数据集合,需要借助成熟的数据库技术对其进行存储管理,即利用改造过的关系数据库系统来组织和管理数据仓库中

商务智能教学课件:03 Data Warehouse 2 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数55
  • 收藏数0 收藏
  • 顶次数0
  • 上传人窝窝爱蛋蛋
  • 文件大小1.42 MB
  • 时间2022-05-16