第1章数据仓库的概念与体系结构
教师:郭荣熙
数据仓库与数据挖掘
第1章目录
数据仓库的概念、特点与组成
1
数据挖掘的概念与方法
2
数据仓库系统的体系结构
4
数据仓库的技术、方法与产品
3
3
数据仓库的产生、发展与未来
3
5
小结
3
6
1、数据仓库的概念、特点与组成
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,通常用于辅助决策支持。
概念
特点
面向主题:如顾客、供应商和产品。
集成的:异构数据的集成。
相对稳定的:大量的查询操作和少量的定期更新操作。
反映历史变化:包含长期的历史数据
组成
数据仓库数据库:核心。
数据抽取工具:ETL。
元数据:对数据进行说明。
访问工具:查询和报表工具
数据集市:数据仓库的一部分数据。
数据仓库管理
信息发布系统
2、数据挖掘的概念与方法
概念
数据挖掘就是从大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。把大数据比喻为“矿床”,从大量的数据中找出有用的知识,即“挖掘”。
数据挖掘的分析方法
直接数据挖掘:分类、估值和预言等分析方法。
间接数据挖掘:关联规则、聚集、描述和可视化及复杂数据类型的挖掘。
数据参考与数据挖掘的关系
若将数据仓库比作矿井,那么数据挖掘就是深入矿井开采的工作。
收集信息
建立数据仓库
数据挖掘
3、数据仓库的技术、方法和产品
关键环节包括:数据抽取、数据存储与管理和数据表现等。
联机事务处理(OLTP)与联机分析(OLAP)处理的比较。
OLAP技术的有关概念:多维数据集、维度、度量值、多维分析(钻取,切片和切块,旋转)。
OLAP的分类:ROLAP、MOLAP和HOLAP。
OLAP工具:分析、查询和报表。
是一个综合集成解决方案和系统工程。
各数据仓库厂商提供的解决方案
IBM、Oracle、NCR、Microsoft、SAS等。
4、数据仓库系统的体系结构
一个典型的数据仓库系统通常包含数据源、数据的存储与管理、OLAP服务器、前端工具与应用4个部分。
数据仓库的体系结构类型
两层结构。
独立型数据集市。
依赖型数据集市和操作型数据存储。
逻辑型数据集市和实时数据仓库
数据仓库环境最重要的三个环节包括抽取(extract)、转换(transform)及加载),即ETL过程。
第1章 数据仓库的概念与体系结构 来自淘豆网www.taodocs.com转载请标明出处.