培训内容etl数据流应用.pptx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ETL基本应用——数据流应用 大数据平台事业部 大数据平台事业部 2022年4月26日 数据流简介 常用适配器介绍 课后作业 回顾与总结 数据流任务 2 数据流任务 是一种特殊的任务类型,能够独立完成一次数据的提取、清洗、转化和加载过程,是ETL的核心功能之一 数据流简介 常用适配器 课后作业 回顾与总结 案例介绍 4 源文件 数学成绩表.txt C_SCORE 学生班级表.xls 目标要求 1、将所有学生的考试成绩和班级等信息输出到一张表中,同时将性别中的“01”“02”分别换为“男”“女” 2、对输出的学生成绩表进行合计划分并统计人数:优秀(150分以上),良好(100-150分),不及格(100分以下) 文本输入 5 文本输入适配器 支持txt或者csv格式 文件名称 固定取值:文件名称(带后缀) 通配公式取值:${参数名}.txt 输出行号字段 勾选后,输出中多出行号字段“SYS_ROWNUM” 空输出 6 空输出适配器 往控制台视图中输出数据信息,用于调试方案 是否打印记录 选择信息是否在控制台视图中输出 数据库输出 文本输出 Excel输出 7 场景 根据所选的字段,删除数据相同的记录 冗余分拣适配器 根据分拣字段,达到对重复的记录进行分拣处理,重复的记录会按照容错处理模式进行处理 冗余分拣 SQL输入 8 SQL输入适配器 SQL页签 填写查询表C_SCORE的SQL语句: select * from C_SCORE 字段定义页签 字段标题、字段名称和字段类型可修改, 默认与数据库类型一致。 主键 一般含有主键的数据表勾选,提高读取效率 集合运算 9 场景 将两张结构相同的表的数据合并到一张表中 集合运算适配器 运算模式 并集(Union All):输出两表总数据 并集(Union):如果两表有相同数据,输出去掉重复数据的总数据 交集(Intersect):输出两表重复数据 差集(Except):输出单独存在左表的数据 注意 两表列数和顺序要相同 查找 10 场景 将字段中的数据替换成目标数据 查找适配器 先查询后替换的功能适配器 三种模式类型 内建模式 文本模式和数据库模式(均要关联数据连接) 允许目标值 若没有查找到匹配的记录,允许目标值选为“是”,则输出原值数据;选择“否”,则为空 转置——合并行 11 场景 将多行有相同点的数据合并为一行 合并行适配器 按指定的字段,将另一字段分别生成到不同的输出字段中,达到从多行数据合并到一行数据的效果 Excel行浮动输入 12 Excel行浮动输入适配器 支持xls或者xlsx格式 数据起始行号 用于设置Excel表中的数据单元格的起始行号,默认第一行,需要指定 页签适用条件 页签名称对应工作表名称,页签索引对应工作表位置 表关联 13 场景 将两张有相同或相关联字段的数据关联到一张表中 表关联适配器 关联模式 内部关联:只包含两表匹配行 左外关联:左表所有行和右表匹配行 完全外部关联:两表的所有行 注意 单次表关联只针对两张源数据表 过滤排序 14 场景 过滤表中的数据记录; 对表中数据进行排序 过滤适配器 用公式描述过滤条件,输出符合条件的记录 排序适配器 排序优先级 对于多个字段,排序优先级优为从上到下 数据库输出文本输出 15 数据库输出适配器 输出模式 追加(默认):直接向库中插入数据 更新:针对库中已有数据判断后更新 自动:判断库中有该数据则更新,无则追加 单次提交记录数 设置单次提交的记录数,默认为256。 文本输出适配器 输出模式 覆盖(默认):覆盖掉同名文件 追加:在已有的文件中追加数据 Excel输出 16 Excel输出适配器 支持xls或者xlsx格式 输出名称行 勾选后,输出的Excel中出现表头字段信息。 分页行数 默认为0,可以设置Excel输出每页的行数。 计算字段 17 场景 根据表中的数据进行计算,添加新的字段 计算字段适配器 对输入的数据根据一定的业务逻辑进行 计算转换后输出一个新的字段 分组统计 18 场景 根据选择的字段分组统计数据记录 分组统计适配器 先分组后统计的功能适配器。 字段处理方式 包括分组字段、隐藏字段、合计、平均值、最大值、最小值和计数七项 转置——拆分行 19 场景 将一行数据记录转换成多行的拆分记录 拆分行适配器 按指定的字段,将存在一定规则的数据经过拆分行适配器拆分成多行记录 适配器错误处理机制 20 错误处理模式 忽略 跳过出错的数据继续执行(默认)。 异常 遇到错误时终止ETL执行,在控制台视图中显示异常

文档评论(0)

fuwuzhishi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档