- 1、本文档共599页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
根据相关教材和网络资源整理制作,可作为授课教师的参考资料和专业学生、从业人员的自学资料。
7.4.1 把文本文件导入到Excel文件中 图7-20 file.xls文件内容 7.5 数据清洗与转换 7.5.1 使用Kettle实现数据排序 7.5.2 在Kettle中用正则表达式清洗数据(请直接参考教材) 7.5.3 使用Kettle去除缺失值(请直接参考教材) 7.5.4 使用Kettle转化MySQL数据库中的数据(请直接参考教材) 7.5.1 使用Kettle实现数据排序 这里给出一个实例,演示如何使用Kettle实现数据排序,具体包括如下步骤: 创建文本文件; 建立转换; 设计转换; 执行转换。 7.5.1 使用Kettle实现数据排序 1.创建文本文件 在“D:\”目录下新建一个文本文件score.txt,其内容如图7-51所示,文件的第1行是字段名称,包括name和score,字段之间用分号隔开,其余行都是记录,字段之间也是用分号隔开。 图7-51 score.txt文件内容 7.5.1 使用Kettle实现数据排序 2.建立转换 在Spoon主界面的“主对象树”栏目中,在“转换”上面(如图7-52所示)单击鼠标右键,在弹出的菜单中点击“新建”。点击Spoon主界面左上角的“保存”图标,把这个转换保存到某个路径下并且名称为“sort_data”。 图7-52 新建“转换” 7.5.1 使用Kettle实现数据排序 3.设计转换 在“核心对象”栏目中,在“输入”控件里把“文本文件输入”拖到右侧设计区域,然后在“转换”控件里把“排序记录”拖到右侧设计区域,然后为这两个控件建立连线(如图7-53所示)。 图7-53 放置文本文件输入和排序记录两个控件 7.5.1 使用Kettle实现数据排序 双击设计区域的“文本文件输入”控件图标,打开设置界面(如图7-54所示),点击“文件或目录”右侧的“浏览”按钮,添加文件“D:\score.txt”,然后,点击“增加”按钮,执行效果如图7-55所示。 图7-54 添加文件 7.5.1 使用Kettle实现数据排序 图7-55 添加文件以后的效果 7.5.1 使用Kettle实现数据排序 在“内容”选项卡中,设置分隔符为分号“;”(如图7-56所示)。 图7-56 设置“内容”选项卡 7.5.1 使用Kettle实现数据排序 在“字段”选项卡中(如图7-57所示),点击“获取字段”按钮,成功获取字段以后的效果如图7-58所示。 图7-57 获取字段 图7-58 获取字段成功以后的效果 6.4.2组成 CDC解决方案包括变化捕捉代理、变化数据服务和变化分发机制三个组成部分。 (1)变化捕捉代理。变化捕捉代理是一个软件组件,它负责确定和捕捉发生在操作型数据存储源系统中的数据变化。可以对变化捕捉代理进行专门优化,使它适用于特定的源系统,比如使用数据库触发器;也可以使用通用的方法,比如数据日志比较。 (2)变化数据服务。变化数据服务为变化数据捕捉的成功实现提供了一系列重要的功能,包括过滤、排序、附加数据、生命周期管理和审计等。表6-4给出了每个功能的解释。 表6-4 功能及其解释 功能 解释 过滤 确保只接收已经提交的数据 排序 接收数据时基于事务、表或时间戳进行排序 附加数据 为分发的变化增加一些参考数据以便于对数据进行进一步的处理 生命周期管理 在多长时间内应用可以得到变化的数据;多长时间以后丢弃所分发的数据 审计 允许对系统的端到端行为的监听和对趋势的检查 6.4.2组成 (3)变化分发机制。变化分发机制负责把变化分发到变化的消费者(通常是ETL程序)那里。变化分发机制可以支持一个或多个消费者,并且提供了灵活的数据分发方式,包括推(push)或拉(pull)的方式。Pull方式需要消费者周期性地发送请求,通常采用标准接口实现,比如ODBC或JDBC。Push方式需要消费者一直监听和等待变化的发生,一旦捕捉到变化,就立刻转移变化的数据,通常采用消息中间件来实现。变化分发机制的另一个重要功能就是提供动态返回和请求旧的变化的能力,从而满足重复处理和恢复处理等任务。 6.4.3具体应用场景 变化数据捕捉技术有两个典型的应用场景:面向批处理的CDC(pull CDC)和面向实时的CDC(push CDC)。 1.面向批处理的CDC 在这种场景中,ETL工具周期性地请求变化,每次都接收批量数据,这些批量数据是在上次请求和这次请求之间所捕捉到的变化。变化分发请求可以采取不同的频度,比如一天两次或每隔15分钟1次。 对于许多组织而言,提供变化数据的一种比较好的方式是以数据表的记录的形式表示。这种方式可以使ETL工具通过标准接口(比如ODBC)的方式无缝地访问变化数据。CDC则需要维护上次变化分发的位置和分发新的变化。 这种应用场景和传统的ETL很相似,不同的是,pull CDC只需要转移
您可能关注的文档
最近下载
- EPDM塑胶面层施工方案:.doc VIP
- 肿瘤化疗药物使用指南和规范.pdf VIP
- 分析沥青混凝土路面病害产生原因及处理的方法.doc VIP
- 2024华医网答案;继续教育答案;复合杂交手术治疗主动脉夹层疾病新理念;题库答案.docx VIP
- 省级优秀课件人音版小学音乐二年级上册《大海》.pptx
- 遇到更好的自己(新员工).pdf
- 超星尔雅学习通《劳动通论》章节测试答案.pdf VIP
- 思想道德与法治2021版第六章第四节.pptx
- 2024年外研版八年级上册英语Module 9 Unit3 Language in use.pptx VIP
- 2024年华医网继续教育肠内肠外营养临床规范化应用答案.docx VIP
文档评论(0)