数据仓库的定义及应用
作者: 曹翊
数据仓库之路原创资料
数据仓库的定义及应用
数据仓库已经进入一个快速的发展阶段。当现代企业开始重视信息的价值时,数
据仓库就成为一个必然的选择。经济的发展和业务环境的变化是数据仓库发展的
主要原因。九十年代是全球乃至我国经济急速发展的十年,激烈的竞争、企业间
频繁的兼并重组,使得企业对信息的需求大大加剧,这是数据仓库得以发展的根
本原因。
今天的国内企业面对 WTO 和世界经济增长减缓的双重压力,为继续保持经济的
高速稳定增长,大量的企业面临着减员增效、股份制改造等各种改变,准确全面
的信息支持是在变革中制胜的法宝。因此,数据仓库技术对国内各个行业的企业
都是十分重要和必需的。随着经营策略从以产品为中心转变为以客户为中心,信
息的潜在价值正在得到越来越多的关注,中国企业已经认识到充分地利用信息是
应对挑战的关键一步。数据仓库因而成为 IT 领域中被关注的热点之一。
一什么是数据仓库?
数据仓库是迄今为止最让人困惑的几个 IT 术语之一,从字面理解,它似乎是某
种大规模数据存储设备。
“数据仓库和我们的光盘库有什么区别?”
“你们的数据仓库最大存储容量是多少?”
三年前,经常有对“数据仓库”感兴趣的客户向我和我的同事们提出诸如此类似
是而非的问题。到了 2002 年的今天,这样的提问已经很少见,但是每个人对数
据仓库的诠释似乎都不尽相同,让我们先听听权威们的说法,
数据仓库是信息数据库的具体实现,用来存储源自业务数据库的共享数据。典型
的数据仓库应该是一个主题数据库,支持用户从巨大的运营数据存储中发现信
息,支持对业务趋势进行跟踪和响应,实现业务的预测和计划。
—— DM Review 杂志
…数据仓库无非是所有数据集市的集合….
—— Ralph Kimball
- 1-
数据仓库的定义及应用
数据仓库是一个面向主题的,集成的,不同时间的,稳定的数据集合以便支持管
理决策
—— Bill Inmon
先驱们为数据仓库提出了上述各种不尽相同的定义,其中数据仓库之父 Bill
Inmon 在 1991 年出版的“Building the Data Warehouse”一书中所提出的定义被广
泛接受,他把数据仓库的特点归纳为面向主题、集成的、不同时间的、稳定的,
•面向主题—数据以所代表的业务内容划分,而不是以应用划分
•集成的—数据仓库中的数据采用统一的格式和编码方式
•不同时间的—数据按照时间进行组织并且存储在不同的时间切片
•稳定的—不允许对数据仓库数据进行更新操作,只允许加载和查询操
作
当我们谈到数据仓库时还有一种颇为流行的说法,
数据仓库是一个过程而不是一个项目
这种说法与 Inmon 的定义似乎毫不相干,但却同样都被接受,这样的结论确实
容易让初学者感到困惑。正如对光的描述需要考虑光波和粒子两方面的特性,数
据仓库的描述和定义也需要从不同的角度入手。
数据仓库和数据仓库系统
十年前,当 Inmon 提出数据仓库概念的时候,IT 系统的建设还停留在以数据为
核心的时代。新兴的关系型数据库技术已经逐步被接受和采用,但是人们在实践
中发现实体-关系设计方法使得关系型数据库很难处理大规模数据查询,即所谓
“易进不易出”的问题。数据仓库概念的提出正是为了解决这个问题,利用数据
仓库的建模方法,可以帮助关系数据库解决数据查询难的问题。因此 Inmon 的
定义所陈述的是一种设计方法,更多的偏重于对数据本身和数据模型特点的描
述。
十几年后的今天,IT 系统已经进入到以应用为核心的时代,关系型数据库已经
成为 IT 应用的基础平台。数据仓库已经不是一种理论和方法而是一种实际的企
业级应用,它的定义也应该进行扩展和丰富以适应新的情况。如果我们把 Inmon
- 2-
数据仓库的定义及应用
的定义称之为数据仓库,与之对应我们试图描述的就是数据仓库系统。
数据仓库系统是一个信息提供平台,它从业务处理系统获得数据,主要以星型模
型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
从功能结构划分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据
存储(Data Storage)、数据访问(Data Access)三个关键部分。
数据仓库与数据仓库系统
除了 Inmon 定义中所提到的数据仓库特点,数据仓库系统和其它的应用系统相
比
数据仓库定义和应用 来自淘豆网www.taodocs.com转载请标明出处.