下载此文档

数据挖掘2.ppt


文档分类:IT计算机 | 页数:约63页 举报非法文档有奖
1/63
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/63 下载此文档
文档列表 文档介绍
数据挖掘
概念与技术
——第二章——
滕少华 编
Jiawei Han(加)著
Micheline Kamber
第二章:数据仓库和数据挖掘的OLAP技术
什麽是数据仓库?
多维数据模型
数据仓库的系统结构
数据仓库实现
数据立方体技术的进一步发展
从数据仓库到数据挖掘
什么是数据仓库?
数据仓库已被多种方式定义但没有一种严格的定义。
一个与组织结构的操作数据库分别维护的决定支持数据库。
为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
“数据仓库是一个面向主体的、集成的、时变的、非易失的数据集合,支持管理过程的决策过程”—W. H. Inmon
建立数据仓库
构造和使用数据仓库的过程
围绕一些主题如顾客、供应商、产品和销售等而组织。
关注于决策者的数据建模和分析,而不是集中于组织机构的日常操作和事务处理。
数据仓库排除与对于决策无用的数据,提供特定主题的简明视图。
数据仓库——面向主题的
通过集成多个异种数据源而构成。
关系数据库、一般文件和联机事务处理记录。
使用数据清理和数据集成技术。
在不同的数据源中,确保命名约定、编码结构、属性度量等的一致性。
例如,旅馆价格:由住宿费、税收、附带的早餐费等等构成。
数据被移到数据仓库时就进行了数据转换。
数据仓库——集成的
数据仓库——时变的
数据仓库的时间范围明显长于操作系统.
操作数据库:当前的有用信息。
数据仓库数据:从历史的角度提供信息(例如:过去的5-10年)
数据仓库的每一个关键结构
隐式或显示的包含时间元素
但操作数据的关键结构可以包含也可以不包含“时间元素”
数据挖掘——非易失的
数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据
操作性的数据更新不会发生在数据仓库的环境下.
数据仓库不需要事务处理、恢复和并发控制机制
它只需要两种数据访问:
数据的初始装入和数据访问
数据仓库和异源DBMS
传统的异种数据路的集成:
在异种数据库的顶部建立一个包装程序和集成程序
查询驱动方法
当一个查询提交客户站点,首先使用元数据字典对查询进行转换,将它转换成相应异种站点上的查询,然后,不同站点返回的结果被集成为全局回答
查询驱动方法需要复杂的信息过滤,并且与局部数据源上的处理竞争资源
数据仓库:使用更新驱动的方法,为集成的异种数据库系统带来了高性能
将来自多个异种源的信息预先集成,并存储与数据仓库中,供直接查询和分析
数据仓库和操作数据库系统
联机事务处理OLTP (on-line transaction rocessing)
传统的关系DBMS的主要任务
他们涵盖了一个组织的大部分日常操作:购买、库存、制造、银行、工资、注册、记账等。
联机分析处理OLAP (on-line analytical processing)
数据仓库系统的主要任务
数据分析和决策
􀂄OLTP和OLAP的区别
用户和系统的面向性:OLTP面向顾客,而OLAP面向市场
数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据。
数据库设计:OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计,而OLAP系统通常采用星形和雪花模型
视图:OLTP系统主要关注一个企业或部门内部的当前数据,而OLAP 系统主要关注汇总的统一的数据。
访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作,尽管许多可能是复杂的查询
OLTP vs. OLAP

数据挖掘2 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数63
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sxlw2015
  • 文件大小2.38 MB
  • 时间2021-07-31