- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Kettle使用说明简版
1、文档说明
本文档主要介绍我们实际应用中使用Kettle工具来开发ETL过程的相关说明,内部文档,仅供参考.
2、ETL流程图
3、关键操作介绍
3.1创建资源库
[对象位置]:登陆界面
[实现功能]:配置存储相关转换、任务及相关附属信息的数据库
[操作说明]:
进入登陆界面:
点击新建按钮,进入配置界面,填写相关信息
填写完毕,可测试是否成功,成功后,进入如下界面,点创建或更新
创建完毕可用资源库用户登录Kettle,默认用户名,密码:admin/admin
[备注]:
我们一般建立一个独立的数据库用户,专门存储Kettle相关信息,资源库就连接在这个数据库用户上
3.2创建转换
[对象位置]:文件〉〉新建〉〉转换
[实现功能]:将库A的表A1中的数据经过一定转换,插入到库B的表B1
[操作说明]:
新建一个转换
将“核心对象〉〉输入〉〉表输入”拖到转换设置面板
双击“表输入”,进入脚本编辑界面:
本界面可以设置数据库连接,点“新建”可以创建一个新的数据库连接,点“编辑”更改数据库连接,然后编辑好相关提取语句:
将“核心对象〉〉输出〉〉表输出”拖到转换设置面板
双击“表输出”,进入脚本编辑界面:
本界面需要选择数据转入目标表的数据库连接,以及目标表的表名称,如果数据量比较大的话,可以设置每次提交的数据量
将表输入和表输出连接:按住shift,鼠标从“表输入”拖到“表输出”,如图:
该转换编辑成功,可以保存并执行测试
[保存]:
[执行]:
执行成功后便可以编辑其它转换,过程类似
[备注]:
1)编写的SQL语句的字段别名要与数据转入的目标表的字段名称一致;
2)语句最后不能有标点;
3)若SQL中有参数的话,需要将“替换SQL语句中的变量”选中;
4)转换前可以执行一些脚本比如:
将“脚本〉〉执行SQL脚本”拖入,并连接即可,双击可编辑SQL(需要有分号,若更新库则需要提交)
3.3创建任务
[对象位置]:文件〉〉新建〉〉任务
[实现功能]:将多个操作串行合并,形成一个整体任务,其中的操作可以是转换、任务、脚本等等
[使用说明]:
新建一个任务
拖入几个任务对象,可以是转换、任务、脚本等,并连接,如图:
双击相关对象进行编辑,需要选择已经建立好的转换(任务名称)名称
所有中间步骤的对象都已设定好以后,保存任务,执行测试任务
[备注]:任务中各对象执行,以前一对象成功执行为前提,若任务里,包含多个子任务,如果各任务之间相互独立,可以在子任务中拖入“success”对象,否则当母任务中某一对象执行失败,则任务停止。
例如在任务1中包括任务A、B两个子任务,A在前、B在后,若需要A无论是否执行成功,B都可以执行,则可以A任务末尾,加入“success”;若A执行失败,任务1需要停止,则A任务末尾不能有“success”对象。
3.4执行数据库存储过程
[对象位置]:核心对象〉〉查询〉〉调用DB存储过程
[完成功能]:在转换中调用数据库存储过程
[操作说明]:
将“核心对象〉〉输入〉〉生成记录”拖入转换编辑面板
将“核心对象〉〉查询〉〉调用DB存储过程”拖入转换编辑面板,如图:
双击进入编辑界面:
在生成记录界面,输入需要生成的变量名称,以及变量的值
该界面输入内容:
存储过程所在的数据库联接
存储过程名称,若是过程包,需要输入:包名.过程名;
若存储过程需要参数,则在最下面输入相关参数,并输入变量的方向,以及类型
如果此存储过程不需要返回值,则需要去除默认的返回值名称
编辑完毕,保存,测试执行
[备注]:调用存储过程,独立运行时无效,在“调用存储过程”对象之前,必须有数据流的对象,可以使用生成记录、Get Variable、表输入等方式,生成数据流,以激活“调用存储过程”对象。
3.5设置任务运行参数
见:
3.6生成日志文件
[使用说明]:Kettle在界面运行时,可以选择日志文件的类型:最小日志、基本日志、详细日志等,可以通过任务执行时的执行结果界面,查看运行日志。日志文件保存在系统临时文件夹中,以spoon_e0eb1531-575a-11df-a693-9bfe8be180a0.log的格式保存。
[备注]:除了通过界面运行任务可以查看日志以外,也可以通过windows命令窗口运行任务,并将日志文件另存。windows运行的格式为
进入kettle安装目录
Kitchen.bat /rep kettle资源库名 /user admin /pass admin /job job名 /level:Basic /log:c:\日志文件名.log
3.8设置发送邮件
见:
文档评论(0)