Hive大数据存储与处理 教案 第7章 广电用户数据清洗及数据导出 教案.docx

Hive大数据存储与处理 教案 第7章 广电用户数据清洗及数据导出 教案.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第7章广电用户数据清洗及数据导出

教案

课程名称:Hive大数据存储与处理

课程类别:必修

适用专业:大数据技术类相关专业

总学时:64学时(其中理论36学时,实验28学时)

总学分:4.0学分

本章学时:10学时

材料清单

《Hive大数据存储与处理》教材。

配套PPT。

引导性提问。

探究性问题。

拓展性问题。

教学目标与基本要求

教学目标

本章的目标是先探索广电用户无效数据,再进行数据清洗与保存。本章首先探索了无效用户数据,如探索重复的用户数、特殊线路用户数据和政企用户数据等,其次探索了无效收视行为数据,主要探索用户观看时长,接着探索了无效账单和订单数据,探索用户应付金额should_pay字段和订购产品价格cost字段是否存在小于0的数据,再按照探索结果进行数据清洗,最终将清洗结果保存至Linux本地目录和HDFS目录。

基本要求

掌握Hive内置函数的使用方法。

掌握Hive中对数据进行清洗与统计分析的方法。

掌握将Hive表中的数据导出至Linux本地与HDFS的方法。

问题

引导性提问

引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。

在处理广电用户数据时,如何通过Hive查询语句识别并统计出重复的用户记录数量?

假设发现某些用户的观看时长异常长,远超一般用户,应如何设计一个查询来筛选出这些可能的异常数据?

如何使用Hive的查询语句验证数据清洗的结果?

探究性问题

探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。

在面对不同类型的数据错误(如空值、异常值、重复值)时,应如何决定采取删除、填充还是修正的策略,以最大限度保留数据的有效性?

在执行大规模数据清洗时,如何通过调整Hive的配置参数或优化查询逻辑来提升数据处理的效率和速度?

清洗后的数据如何进行质量评估,以确保数据准确无误地反映了业务实际情况?

拓展性问题

拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。

除了INSERTOVERWRITE语句,还有哪些方法可以将数据导出至文件系统?

如何通过Shell脚本实现自动化执行数据清洗流程,包括数据探索、清洗、验证及导出到指定位置的全过程?

主要知识点、重点与难点

主要知识点

探索无效用户数据。

删除无效用户数据。

探索无效收视行为数据。

删除无效收视行为数据。

探索无效账单数据。

探索无效订单数据。

删除无效账单和无效订单数据。

使用INSERTOVERWRITE语句将数据导出至文件系统。

保存处理结果至Linux本地和HDFS。

重点

使用INSERTOVERWRITE语句将数据导出至文件系统。

难点

使用INSERTOVERWRITE语句将数据导出至文件系统。

教学过程设计

理论教学过程

清洗无效用户数据。

清洗无效收视行为数据。

清洗无效账单和订单数据。

导出处理结果至Linux本地和HDFS。

实验教学过程

探索无效用户数据。

删除无效用户数据。

探索无效收视行为数据。

删除无效收视行为数据。

探索无效账单数据。

探索无效订单数据。

删除无效账单和无效订单数据。

使用INSERTOVERWRITE语句将数据导出至文件系统。

保存处理结果至Linux本地和HDFS。

教材与参考资料

教材

何煌,张良均.Hive大数据存储与处理[M].北京:人民邮电出版社.2024.

参考资料

[1] 张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.

[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档