- 1、本文档共74页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第7章ETL工具Kettle
目录7.1Kettle的基本概念7.2Kettle的基本功能7.3安装Kettle7.4数据抽取7.5数据清洗与转换7.6数据加载
7.1Kettle的基本概念
7.1Kettle的基本概念一个数据抽取过程(如图7-1所示)主要包括创建一个作业(Job),每个作业由一个或多个作业项(JobEntry)和连接作业项的作业跳(JobHop)组成。每个作业项可以是一个转换(Transformation)或是另一个作业。一个转换由一个或多个步骤(Step)和连接步骤的跳(Hop)组成。图7-1一个数据抽取过程的构成要素
7.1Kettle的基本概念转换主要用于数据的抽取(Extraction)、转换(Transformation)以及加载(Load),比如读取文件、过滤输出行、数据清洗或加载到数据库等步骤。一个转换包含一个或多个步骤,每个步骤都是单独的线程,当启动转换时,所有步骤的线程几乎并行执行。步骤之间的数据以数据流方式传递。所有的步骤都会从它们的输入跳中读取数据,并把处理过的数据写到输出跳,直到输入跳里不再有数据就终止步骤的运行;当所有步骤都终止了,整个转换就终止了。由于转换里的步骤依赖前一个步骤获取数据,因此转换里不能有循环。
7.1Kettle的基本概念相较于转换,作业是更加高级的操作。作业由一个或多个作业项(作业或转换)组成。所有的作业项是以某种自定义的顺序串行执行的。作业项之间可以传递一个包含了数据行的结果对象。当一个作业项执行完成后,再传递结果对象给下一个作业项。作业里可以有循环。跳是步骤之间带箭头的连接线,它定义了一个单向通道,用于连接两个步骤,实现将数据从一个步骤(写入数据到行集)流向另一个步骤(从行集中读取数据)。跳是两个步骤之间的被称为“行集”(RowSet)的数据行缓存(可以在转换设置中定义行集大小)。若行集满了,则向行集写数据的步骤将停止写入,直到行集里又有空间。若行集空了,则从行集读取数据的步骤就会停止读取,直到行集里又有可读取的数据行。跳对于向行集写入数据的步骤来说是输出跳,一个步骤可以拥有多个输出跳;跳对于从行集中读取数据的步骤来说是输入跳。作业跳是作业项之间带箭头的连接线,它定义了作业的执行路径。
7.2Kettle的基本功能
7.2Kettle的基本功能Kettle的基本功能包括转换管理和作业管理。转换管理主要包括输入、输出、转换、应用、流程、脚本、查询、检验、作业、映射和批量加载等功能(表7-1给出了常用的转换控件及其相关说明)。作业管理主要包括通用、邮件、文件管理、条件、脚本、批量加载等功能(表7-2给出了常用的作业控件及其相关说明)。转换类别步骤/控件相关说明输入CSV文件输入从本地的CSV文件中输入数据文本文件输入从本地的文本文件中输入数据表输入从数据库的数据表中输入数据获取系统信息读取系统信息输入数据输出文本文件输出将处理后的结果输出到文本文件中表输出将处理后的结果输出到数据库的数据表中插入/更新根据处理后的结果对数据库中的数据表进行插入更新。根据查询条件中的字段判断数据表中是否存在相关记录,若存在,则进行更新,否则进行插入表7-1常用的转换控件及其相关说明
7.2Kettle的基本功能转换值映射数据的映射列转行将数据表的列转换成数据表的行去除重复记录从输入流中去除重复的数据,需要注意的是输入流中的数据必须是已排序的唯一行(哈希值)从输入流中去除重复的数据,不需要对输入流中的数据进行排序字段选择选择需要的字段,过滤掉不要的字段,也可与数据库字段对应拆分字段将一个字段拆分成多个字段排序记录基于某个字段值将数据进行升序或降序处理行转列将数据表的行转成数据表的列增加常量增加需要的常量字段
7.2Kettle的基本功能应用替换NULL值若某个字符串的值为NULL,则指定某个字符串的值进行替换设置值为NULL若某个字符串的值等于指定的值,则将这个字符串的值设置为NULL流程空操作不做任何操作,一般充当一个占位符过滤记录根据条件对数据进行过滤分类脚本Java代码转换的扩展功能,编写Java脚本,对数据进行相应的处理JavaScript代码转换的扩展功能,编写JavaScript脚本,对数据进行相应的处理执行SQL脚本执行SQL脚本,对数据进行相应的处理
7.2Kettle的基本功能查询HTTPClient通过一个可以动态设定参数的基本网址调用HTTPWeb服务流查询将目标表读取到内存,通过查询条件对内存中的数据集进行查询数据库查询根据设定的查询条件对目标表进行查询,返回需要的结果字段连接合并记录合并两个数据流,并根据某个关键字排序排序合并合并多个数据流,并且数据的行要基于某个关
您可能关注的文档
- 《食品智能加工技术》课件——【企业案例】吴茂玉:在热爱与执着中笃行,用科技助力果蔬产业.pptx
- 《食品智能加工技术》课件——【行业案例】千年古早味——泉州蜜饯.pptx
- 《市场开拓与营销》课件——1-1产品发布模版-2.pptx
- 《室内设计》课件——任务3图层设置.pptx
- 《室内设计》课件——项目二 中外建筑与室内装饰基础知识——任务1中外建筑简史—2.1.1中国古代建筑简史.pptx
- 《室内设计》课件——项目二 中外建筑与室内装饰基础知识——任务1中外建筑简史—2.1.2西方古代建筑简史.pptx
- 《室内设计》课件——项目三 项目设计方案流程——任务1设计准备3.1.2项目设计草案.pptx
- 《室内设计》课件——项目三 项目设计方案流程——任务3设计实施3.3.1施工技术工作.pptx
- 《室内设计》课件——项目三 项目设计方案流程——任务3设计实施3.3.2竣工技术工作.pptx
- 《室内设计》课件——职业道德基本知识.pptx
文档评论(0)