下载此文档

2021年ETL面试题.doc


文档分类:IT计算机 | 页数:约14页 举报非法文档有奖
1/14
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/14 下载此文档
文档列表 文档介绍
一、分析
1.什么是逻辑数据映射?它对ETL项目组作用是什么?
What is a logical data mapping and what does it mean to the ETL team?
答:
逻辑数据映射(Logical Data Map)用来描述源系统数据定义、目标数据仓库模型和将源系统数据转换到数据仓库中需要做操作和处理方法说明文档,通常以表格或Excel格式保留以下信息:
目标表名:
目标列名:
目标表类型:注明是事实表、维度表或支架维度表。
SCD类型:对于维度表而言。三种SCD(Slowly Changing Dimension)技术
SCD1直接修改原维表信息,不保留任何维历史信息。
SCD2创建新统计而不删除或修改原有维信息。可经过为每条统计设定过期时间、生效时间两个字段来区分各历史统计和目前统计(历史统计过期时间均早于目前统计生效时间)。
SCD3在维表中定义历史信息字段,只保留有限历史信息(此技术极少应用)
源数据库名:源数据库实例名,或连接字符串。
源表名:
源列名:
转换方法:需要对源数据做操作,如Sum(amount)等。
逻辑数据映射应该贯穿数据迁移项目标一直,在其中说明了数据迁移中ETL策略。在进行物理数据映射前进行逻辑数据映射对ETL项目组是关键,它起着元数据作用。项目中最好选择能生成逻辑数据映射数据迁移工具。
-----------------------------补充:
逻辑数据映射分为两种:
1: 模型映射:
从源模型到DW目标模型之间映射类型有:
一对一:一个源模型数据实体只对应一个目标模型数据实体。假如源类型和目标类型一致,则直接映射。假如二者间类型不一样,则必需经过转换映射。
一对多:一个源模型数据实体只对应多个目标模型数据实体。在同一个数据存放空间,常常出现会一个源实体拆分为多个目标实体情况下。在不一样存放空间中,结果会对应到不一样存放空间实体。
一对零:一个源模型数据实体没有和目标模型数据实体有对应,它不在我们处理计划范围之内。
零对一:一个目标模型数据实体没有和任何一个源数据实体对应起来。比如只是依据设计考虑,时间维表等。
多对一:多个源模型数据实体只对应一个目标模型数据实体。
多对多:多个源模型数据实体对应多个目标模型数据实体。
2: 属性映射
一对一:源实体一个数据属性列只对应目标实体一个数据属性列。假如源类型和目标类型一致,则直接映射。假如二者间类型不一样,则必需经过转换映射。
一对多:源实体一个数据属性列只对应目标实体多个数据属性列。在同一个实体中,常常出现会一个源属性列拆分为目标多个属性列情况。在不一样实体中,结果会对应到不一样实体属列。
一对零:一个源实体数据属性列没有和目标实体数据属性列有对应,它不在我们处理计划范围之内。
零对一:一个目标实体数据属性列没有和任何一个源数据属性列对应起来。比如只是依据设计考虑,维表和事实表中时间戳属性,代理健等。
多对一:源实体多个数据属性列只对应目标实体一个数据属性列。
多对多:源实体多个数据属性列对应目标实体多个数据属性列。
作用:
1 为开发者传送更为清楚数据流信息。映射关系包含相关数据在存放到DW前所经历多种改变信息,对于开发过程中数据追踪审查过程很关键。
2 把ETL过程信息归纳为元数据,将数据源结构,目标结构,数据转换规则,映射关系,数据上下文等元数据保留在存放知识库中,为元数据消费者提供很好参考信息,追踪数据起源和转换信息,有利于设计人员了解系统环境改变所造成影响;
开发设计者能够轻松回复以下问题:
1、这些数据从那里来?
2、这么结果经过什么样计算和转化得来?
3、这些数据是怎样组织?
4、数据项之间有什么联络?
5、假如源发生改变,有那多个系统,目标受影响?
2.在数据仓库项目中,数据探索阶段关键目标是什么?
What are the primary goals of the data discovery phase of the data warehouse project?
答:
在逻辑数据映射进行之前,需要首先对全部源系统进行分析。对源系统分析通常包含两个阶段,一个是数据探索阶段(Data Discovery Phase),另一个是异常数据检测阶段。
数据探索阶段包含以下内容:
A、搜集全部源系统文档、数据字典等内容。
B、搜集源系统使用情况,如谁在用、天天多少人用、占多少存放空间等内容。
C、判定出数据起始起源(System-of-Record)。
D、经过数据概况(Data Profiling)来对源系统数据关系进行分析。
数据探索阶段关键目标

2021年ETL面试题 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数14
  • 收藏数0 收藏
  • 顶次数0
  • 上传人梅花书斋
  • 文件大小39 KB
  • 时间2020-11-10