下载此文档

tp-4410数据仓库与数据挖掘原理及应用第1章.ppt


文档分类:IT计算机 | 页数:约69页 举报非法文档有奖
1/69
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/69 下载此文档
文档列表 文档介绍
tp-4410数据仓库与数据挖掘原理及应用第1章
其次,可能两部门抽取数据的时间不同。如市场部在星期日晚上提取分析所需的数据,而计划部在星期三下午就抽取了数据。有任何理由相信对某一天抽取的数据样本进行分析与对另一天抽取的数据样本进行的处理的使用人员通常是企业的具体操作人员,处理的数据通常是企业业务的细节信息,其目标是实现企业的业务运营;而分析处理的使用人员通常是企业的中高层的管理者,或者是从事数据分析的工程师。决策分析数据环境包含的信息往往是企业的宏观信息而非具体的细节,其目的是为企业的决策者提供信息支持,并最终指导企业的商务活动。。
事务处理和信息分析数据环境的分离,划清了数据处理的分析型环境与事务型环境之间的界限,从而由原来以单一数据库为中心的数据环境发展为以数据库为中心的事务处理系统和以数据仓库为基础的分析处理系统。企业的生产环境,也由以数据库为中心的环境发展为以数据库和数据仓库为中心的环境。
事务处理和分析处理数据环境的分离(2)
14
事务处理和分析处理数据环境的分离(3)
15
综上所述,在事务处理环境中直接构建分析处理应用是不合适的,要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。
目前,数据仓库技术正成为企业信息集成和辅助决策应用的关键技术之一。当然,数据仓库的主要驱动力并不是过去的缺点和问题,而是市场商业经营行为的改变,市场竞争要求捕获和分析事务级的业务数据。
事务处理和分析处理数据环境的分离(4)
16
第一章 目录
从数据库到数据仓库
什么是数据仓库
数据仓库与传统数据库的比较
数据仓库的系统结构
数据仓库的数据组织
本章小结
17
什么是数据仓库
20世纪80年代中期,“数据仓库”这个名词首次出现在号称“数据仓库之父”《Building Data Warehouse》一书中,在该书中,“一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程。”(“A data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions.”)
对于什么是数据仓库,还有许多不同的定义,如:
“数据仓库是融合方法、技术和工具以在完整的平台上将数据提交给终端用户的一种手段”。
“数据仓库是对分布在企业内部各处的业务数据的整合、加工和分析的过程”。
“数据仓库是一种具有集成性、稳定性和提供决策支持的处理”。
“为查询和分析(不是事务处理)而设计的关系数据库”
在众多的数据仓库定义中,,该定义指出了数据仓库面向主题、集成、稳定、随时间变化这4个最重要的特征。
18
与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。什么是主题呢?首先,从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。
面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有更高的数据抽象级别
面向主题(1)
19
面向主题(2)
20
,我们示例了一个电信企业的情况。该企业基于传统数据库已经建立有计费数据库、财务数据库、客户服务数据库等。其中,计费数据库记录了客户的消费情况,财务数据库记录了客户的缴费情况,客户服务数据库记录了客户的咨询和投诉情况,这些数据库里都有与客户主题相关的数据。
如果直接基于传统数据

tp-4410数据仓库与数据挖掘原理及应用第1章 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数69
  • 收藏数0 收藏
  • 顶次数0
  • 上传人放射辐射
  • 文件大小1000 KB
  • 时间2022-05-20