下载此文档

数据仓库与数据挖掘复习.doc


文档分类:IT计算机 | 页数:约12页 举报非法文档有奖
1/12
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/12 下载此文档
文档列表 文档介绍
第 2 页
2021春?数据仓库及数据挖掘?复****提纲
商务智能【参考:BI是一种解决方案,它的目的是把用户积累下来的、大量的数据
转化为业务容易理解的信息,进而辅助决策。】
Kimball对数据仓库的定义【参考:DW仅仅是构成它的数库以数据查询为主,数据更新较少,所以不需过多的考虑数据更新与并发控制,主要考虑数据查询性能的提升。】
数据仓库的两大技术流派及主要差异。【参考:Inmoon与Kimball。〔1〕数据仓库
定义的差异:Bill Inmon将数据仓库定义为“一个面向主题的、集成的、随时间变化的、非易逝的用于支持管理的决策过程的数据集合〞
第 6 页
。Ralph Kimball说“数据仓库仅仅是构成它的数据集市的联合〞 。〔2〕数据仓库构建方法之争:恩门的“Building the Data Warehouse〞主张建立数据仓库时采用自上而下〔DWDM〕方式,以第3范式进展数据仓库模型设计,而他生活上的好朋友Ralph Kimball在“The DataWarehouse Toolkit〞那么是主张自下而上〔DMDW〕的方式,力推数据集市建立,以致他们的FANS吵闹得差点打了起来,直至恩门推出新的BI架构CIF〔Corporation information factory〕,把Kimball的数据集市包括了进来才算平息。恩门认为星型模型只适用于数据集市〔星型模型对于数据集市是十分理想的〕,而不适用于数据仓库。(3) 对数据集市的理解差异: Inmon:面向部门〔Department〕的小型数据仓库——BPR, Kimball:面向业务过程 〔Process〕的小型数据仓库 ——BPM。】
Kimball流派主张基于哪四个主要原那么的迭代方法来构建数据仓库体系【参考:〔1〕
从业务着手——出发点;〔2〕构建一个信息根底设施——设计一个单一、集成、易用、高效的信息根底平台能够满足企业内部的各种需求;〔3〕按时间周期增量交付——根据业务价值进展优先级排序,每个时间周期对应时间轴上的6—12个月;〔4〕发布整个解决方案——交付DW仅仅是个开场,还要交付即席查询、报表、OLAP、DW等BI应用。】
多对多维度〔或多值维度〕怎样表达?包括哪两类? 【参考答案:多对多维度需
要增加一个桥接表来表示。它包括维度表与事实表之间的多对多、维度表及维度表之间的多对多两类。前者将桥接表及事实表相连,后者将其中的一个维度表及事实表相连。】
第 6 页
32、如何使用2×2矩阵确定各业务过程所对应子工程的优先级 。【参考:区分优先级过程是规划会议,涉及DW/BI小组、DW/BI工程的业务赞助商,以及公司各部门的其他关键高层管理人员。在会议中,要描述在企业需求收集过程中所标识的业务过程,以便每个人都能理解每个业务过程的可能性。参加这个会议要准备PowerPoint演示,以便描述每个业务过程,要列举几个将支持的相关分析的例如,以增加对这些分析的业务价值的感性认识,包括实现业务过程(可行性)所需付出努力的级别。描述要尽可能明快、清晰。试着把演示时间控制在2个小时以内。当描述每个业务过程的时候,也就描述了提供必要数据所涉及的有关努力。一旦每个人都理解了业务过程与术语,可以休息一会儿。会议的后半局部包括区分业务过程的优先级。引导会议小组把每个棘手的业务过程注释放置到两-两(two-by-two)网格上。】
SQL SERVER 2005的三个版本及区别 。【参考:标准版、企业版与开发版。对多数
小型与中等规模的实现,标准版可能就足够了。如果按照不带索引的数据来度量,数据卷为50GB或者更少,那么不需要使用企业版中的可伸缩特性即可实现。根据增量加载的卷、频率与正常运行时间的需求,中等规模的、高达250GB数据量的实现也可以运行在标准版上。对于任何大型的、实时的、或者其他具有挑战性的实现,应该方案使用企业版。无论生产中采用哪个版本,开发人员都应该使用开发版。除了选择标准版还是企业版外,还需要决定使用32位平台还是64位平台。】
SQL SERVER 2005的主动缓存技术。【参考:对于低延迟的数据库来说,主动缓存相
当有意义——它针对的是实时多维数据集(或者接近实时的多维数据集)。当用户建立主动缓存时,要求Analysis Services监控针对度量组分区的关系源,并在数据发生变化时自动执行增量处理。
第 7 页

事实表分哪三类?有什么区别?【参考:事务、周期快照及累积快照。迄今为止提
到的大多数事实表都属于事务类型。事务事实表跟踪发生在非连续时间点上的每次事务。周期快照事实表捕获特定时间间隔的累积性能,并且对于跨越同一值链中的几个业务过程组合数据相当有用。周期快照事实也跨越时间间隔聚合许多事实,并且向用

数据仓库与数据挖掘复习 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数12
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1485173816
  • 文件大小36 KB
  • 时间2022-02-08