Kettle 基础培训
目录
一、ETL介绍
二、 Kettle 介绍
三、 Kettle的要求环境(JDK版本)、安装、基本操作。
四、 Kettle的组件的类型基本说明(作业与转换)
五、基于表对表的同步
六、基于文件到表的同步
七、基于表到文件的同步
八、 JAVASCRIPT的基本应用
九、文件FTP下载、上传。
十、作业调用作业、转换。
十一、启动脚本说明。
十二、 JAVA调用作业、转换
十三、使用原则
简介ETL
ETL(即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。
ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
简介Kettle
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle 中文名称叫水壶。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
KETTLE的要求环境(JDK版本)、安装、基本操作
5
KETTLE的组件的类型基本说明(作业与转换)
Kettle中有两种脚本文件,transformation(转换,)和job(作业, ),transformation完成针对数据的基础转换,好比工厂里的生产流水线,每个组件相当于一个员工;job则完成整个工作流的控制,好比工厂里的管理。
如果用记事本打开文件可发现转换和作业都是xml类型文件。
6
KETTLE的组件的类型基本说明(作业与转换)
9
转换:一传递分复制和分发两种模式。开始所有步骤同时运行,记录会从最前端的步骤向后传递,传递到相应步骤则该记录被该步骤作相应处理,处理完成再把记录往后传递,记录
KETTLE的组件的类型基本说明(作业与转换)
10
复制:把一份数据复制成多份,后面步骤各占一份。
分发:把一份数据平均分配给后面步骤。
KETTLE基础培训PPT课件 来自淘豆网www.taodocs.com转载请标明出处.