下载此文档

ETL工具kettle学习总结.docx


文档分类:IT计算机 | 页数:约41页 举报非法文档有奖
1/41
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/41 下载此文档
文档列表 文档介绍
概览
Kettle也叫PDI(全称是Pentaho Data Integeration),是一款开源的ETL工具,项目开始于2003年,2006年加入了开源的 BI 组织 Pentaho, :
术语
Transformation
转换步骤,可以理解为将一个或者多个不同的数据源组装成一条数据流水线。然后最终输出到某一个地方,文件或者数据库等。
Job
作业,可以调度设计好的转换,也可以执行一些文件处理(比较,删除等),还可以ftp上传,下载文件,发送邮件,执行shell命令等,
Hop 连接转换步骤或者连接Job(实际上就是执行顺序)的连线
  Transformation hop:主要表示数据的流向。从输入,过滤等转换操作,到输出。
Job hop:可设置执行条件:
无条件执行
当上一个Job执行结果为true时执行
当上一个Job执行结果为false时执行
Kettle,etl设计及运行
Kettle整体结构图
              Kettle整体结构图
转换设计样例图
绿色线条为hop,流水线
            转换设计样例
运行方式
使用 java web start 方式运行的配置方法
命令行方式
Windows下执行kitchen.bat,多个参数之间以“/"分隔,Key和value以”:”分隔
例如:
/file: F:\samples\demo— /level:Basic /log:test123.log
/file: 指定转换文件的路径
/level:执行日志执行级别
/log: 执行日志文件路径
,多个参数之间以“-"分隔,Key和value以”=”分隔
kitchen。sh - -level=Minimal
如果设计的转换,Job是保存在数据库中,则命令如下:
/rep:资源库名称 /user:admin /pass:admin /job:job名
Xml保存转换,job流程
设计 用户定义的作业可以保存在(xml格式)中或某一个特定的数据库中
转换的设计文件以。ktr结尾(xml文格式),保存所有配置好的数据库连接,文件相对路径,字段映射关系等信息.
,下面是一个调用已经设计好的转换的job文件的一部分:
<entry〉
   <name>demo test〈/name>
    〈description〉Transformation〈/description>
<type>TRANS</type>
  〈〉${Internal。Job。}&#47;demo-</>
  <transname〉load customer data job</transname>
   <directory>${。}〈/directory>
   〈arg_from_previous>N</arg_from_previous〉
   <exec_per_row>N</exec_per_row>
<clear_rows〉N〈/clear_rows>
 <clear_files>N</clear_files〉
  <set_logfile>N</set_logfile>
   〈logfile/〉
  〈logext/〉
    ………
〈/ entry 〉
数据库保存转换,job流程
列出几个重要的表
r_job: 保存job的id,name,status,执行时间,创建时间,修改时间等信息
建表语句:
DROP TABLE IF EXISTS `r_job`;
CREATE TABLE `r_job` (
`ID_JOB` bigint(20) NOT NULL,
`ID_DIRECTORY` int(11) DEFAULT NULL,
`NAME` varchar(255) DEFAULT NULL,
 `DESCRIPTION` mediumtext,
  `EXTENDED_DESCRIPTION` mediumtext,
  `JOB_VERSION` varchar(255) DEFAULT NULL,
`JOB_ST

ETL工具kettle学习总结 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数41
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sanshenglu2
  • 文件大小410 KB
  • 时间2021-01-22