- 1、本文档共23页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
什么Kettle?
Kettle是一个开源的ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)项目,项目名很有意思,水壶。按项目负责人Matt的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。Kettle大块:Spoon——转换(transform/job)设计工具 (GUI方式)Kitchen——工作(job)执行器 (命令行方式)?????Span——转换(trasform)执行器 (命令行方式)Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高
效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle简单例子
下载及安装Kettle
下载地址:/projects/pentaho/files
现在必威体育精装版的版本是3.6,为了统一版本,建议下载3.2,即下载这个文件pdi-ce-3.2.0-stable.zip。
解压下载下来的文件,把它放在D:\下面。在D:\data-integration文件夹里,我们就可以看到Kettle的启动文件Kettle.exe或Spoon.bat。
2.2 启动Kettle
点击D:\data-integration\下面的Kettle.exe或Spoon.bat,过一会儿,就会出现Kettle的欢迎界面:
稍等几秒,就会出现Kettle的主界面:
2.3 创建kettle后台管理
点击【新建】,新建资源库信息
这里 我们选择KETTLE 后台管理数据库的类型,以及配置JDBC
设置完成后,点击【创建或更新】,将会在指定的数据库里面新建KETTLE的后台管理数据表。再设置 【名称】,点击【确定】。
回到登陆界面,选择新建的【资源库】,输入 用户账号密码(默认账号:admin,密码:admin)
进入KTETTLE 的开发界面
2.4 kettle说明
主对象树:转换(任务),作业(JOB)核心对象:主对象中 可用的组件
2.5 值映射 组件
使用的字段名:源字段
目标字段名:目标字段
源值:源数据的值
目标值:替换的值
注:最好先将源值去空格,再进行替换
2.6 增加常量 组件
名称:映射字段
类型:字段类型
格式:数据格式
长度:
值:常量的值
2.7计算器 组件
新字段:映射字段
计算:计算类型
字段A,B,C:需计算的字段
值类型:数据的类型
2.8获取系统信息 组件
名称:显示的名称
类型:显示的类型(系统时间,IP,指令等等)
2.9增加序列 组件
值的名称:映射值的名称
起始值:序列的初始值
增加值:设置增加的值
最大值:设置最大值
2.10 表输出 组件
数据库连接:设置数据库
目标表:设置目标的表
提交记录数量:设置提交数量
忽略插入错误:跳过错误,继续执行
指定库字段:
数据库字段:选择插入的字段
2.11 多路选择(Switch/Case) 组件
更多路选择的字段:设置Switch的字段
分支值的数据类型:设置值的类型
分支值:
值:设置case的值
目标步骤:跳过的操作步骤
缺省的目标步骤:未通过的操作步骤
2.12 Null if... 组件
名称:选择替换的字段
需要转换成NULL的值:需要转换成NULL的值
2.12 执行SQL脚本 组件
数据库连接:选择数据库
SQL script :输入要执行的SQL语句
参数:设置要替换的参数字段
2.13 Modified Java Script Value 组件
Java Script:脚本的输入
:输入字段
:输出字段
字段名称:定义的字段名
改成为:新的字段名
类型:字段类型
Replace Value:是否替换的值
2.14 合并记录 组件
旧数据源:输入数据源
新数据源:输入数据源
匹配关键字段:匹配关键字段
数据字段:数据字段
2.15 记录关联 (笛卡尔输出) 组件
条件:输入关联的条件
2.16 Merge Join 组件
第一个步骤:第一个操作的步骤
第二个步骤:第二个操作的步骤
步骤选择的字段:步骤关联的字段
2.17 行转列 组件
关键字:选择表的关键字
分组字段:分组的字段
目标字段:选择目标在字段
VALUE:值字段名称
关键字值:关键字值
类型:数据类型
2.18 生成随机值 组件
名称:新生成字段名
类型:随机数的类型
2.19 去除重复行 组件
字段名称:关键字的字段
忽略大小写:是否忽略大小写
注意:去掉重复行 需先排序
2.20 插入 / 更新 组件
数据库连接:选择数据库
目标表:选择目标表
不执行任何更新:是否执行更新操作
查询的关键字:关键字
更新字段:选择
文档评论(0)