网站大量收购闲置独家精品文档,联系QQ:2885784924

2-Kettle开源数据采集工具.pptx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Kettle-开源数据采集工具目 录采集工具简介ETL理论开源工具介绍Kettle的基本概念开源情况应用场景Extract-Transform-LoadETL理论常见的ETL工具IBM的DatastageInformatica的PowercenterPentaho的KettleODI(Oracle Data Integrator)开源工具介绍Kettle是一款国外开源的ETL(Extraction-Transformation-Loading)工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装。开源工具介绍开源工具介绍Kettle的几个基本概念资源库文件型资源库数据库资源库数据流的概念Step—插件/组件Transformation —简单/原子作业Job —复合作业数据库连接变量静态变量动态变量Kettle-资源库-Repository资源库的概念用以存储相关采集转换脚本配置的数据结构新建资源库文件型资源库数据库型资源库资源库的常见使用文件型数据库注意要点数据库型资源库使用要点数据库型资源库导入导出及时清除缓存Kettle-插件/组件-Step编号组件名称组件说明及规范示例1数据输入Step连接不同类型的源数据库,包括Oracle/Sqlserver关系型的数据库和文本型的数据库2数据输出Step日终表输出模式一般使用Bulk Loader中的Oracle Sqlldr,实时、SQL、特殊文件类型的输出,考虑使用数据流输出。3字段选择Step用以筛选应该输出的流当中的字段个数,对不需要进行采集或者转换的字段进行剔除或者替换4变量替换Step一般用以在流的传输过程当中通过作业传入的变量形成一个数据单列5上一步获得数据Step一般用以不同Transformation或者Job之间传输限定相应结果流使用Kettle-插件/组件-Step编号组件名称组件说明及规范示例6输出结果下一步Step与组件5相呼应使用,用以复制相关的结果流给不同的Transformation和Job使用7执行存储过程Step这里支持Procedure和Funtion的调度,如果需要传入相应入参,则可以通过配置相关变量传入8执行SQL脚本Step一般用以执行一段已经设定的SQL语句,其中SQL语句可以支持传递变量,无返回值9空操作Step什么都不做10创建文件夹Step可以支持传入变量或者数据流中的值去建立相关目录Kettle的几个基本概念Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。Kettle的几个基本概念Kettle-简单/原子作业-Transformation输入输出转换变量Bulk Loading连接及并行日志查看及调试跟踪Kettle-复合作业-Job条件简单的逻辑判断Kettle-数据库连接-Connection支持多种数据库连接更换地址时注意缓存清除刷新保存Kettle-变量-Variable变量类型静态变量---${USER_HOME}\.kettle\perties动态变量变量引用${init_date}?变量的作用产生数据列作业入参控制Kettle-开源情况源码开源SVN工程地址:svn:///svnkettlerootsvnsvn:///svnkettleroot:///svnkettleroot插件开发Kettle插件开发示例: /R2R5nbF/R2R5nbF源码解析Kettle3.2源码解析Kettle4.2源码解析Kettle-应用场景数据采集数据清洗转换存储过程调用采集示例演示源数据目标数据库Kettle示例编号OracleORACLE/SQL示例1Sql ServerORACLE/SQL示例2DB2ORACLE/SQL示例3SybaseORACLE/SQL示例4DBF文件ORACLE/SQL示例5Excel文件ORACLE/SQL示例6规则TXTORACLE/SQL示例7.1 7.2 7.3行情采集/DBF文件实时采集ORACLE/SQLDelphi行情程序实时采集ORACLE/SQL示例8分营业部实时采集ORACLE/SQL示例9--重点实时采集原理流水增量实时采集满足条件要满足流水增量采集的条件,实时的源表当中,必须存在一个字段或者某些字段的组合的数据是单调递增,可以单调递增的步长不连续,但是必须单调递增,或者在某个字段有分段的单调递增也可以支持,这样使得相关数据转入的时候不会漏转。例1,单个字段单调递增:以06版柜台系统的hs_fund.fundjour表为例,它有个字段hs_fund.fundjour.serial_no字段在整表当中是单调递增的,serial_no是从1开始,按

文档评论(0)

共享文档 + 关注
实名认证
内容提供者

二级建造师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年10月07日上传了二级建造师

1亿VIP精品文档

相关文档