- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《Hive大数据存储与处理》教学大纲
课程名称:Hive大数据存储与处理
课程类别:必修
适用专业:大数据技术类相关专业
总学时:64学时(其中理论36学时,实验28学时)
总学分:4.0学分
课程的性质
随着5G技术、云计算、人工智能等新一代技术的发展,大数据与行业的融合全面展开,融合生态加速构建,新技术、新业态、新模式不断涌现。党的二十大以来,国家要求加快实施创新驱动发展战略,加快实现高水平科技自立自强,以国家战略需求为导向,增强企业自主创新能力。在发展的过程中,各企业积累了大量的业务数据,企业将不断增长的业务数据进行存储并从中挖掘具有潜在商业价值的信息,为企业发展提供有力支撑,从而创造更大的价值。目前,离线数据分析框架主要有MapReduce和Spark,然而使用MapReduce和Spark,需要开发人员具备Java等开发基础,这对于熟悉SQL的传统数据分析人员来说并不友好,且MapReduce和Spark不具备数据存储的功能,因此支持SQL且能实现数据存储的分布式处理框架的需求日益增长。在这样的背景下,既支持SQL又能存储数据的数据仓库Hive逐渐成为主流的离线数据分析框架。目前开设大数据专业的高校越来越多,然而有关Hive开发的课程较少。为了推动我国大数据,云计算,人工智能行业的发展,满足日益增长的数据分析人才需求,特开设Hive大数据存储与处理课程。
课程的任务
通过本课程的学习,使学生学会使用Hive进行广电大数据用户数据分析,包括广电大数据用户画像需求分析、部署Hive开发环境、了解广电用户数据存储方法、学习广电用户基本数据简单查询、广电用户账单与订单数据查询、广电用户收视行为数据查询优化、广电用户数据清洗及数据,最终学会广电用户数据存储与处理的程序的开发。
通过分阶段分步骤完成多个广电大数据数据实际案例,将理论与实践相结合,为将来从事大数据分析挖掘研究、工作奠定基础。
课程学时分配
序号
教学内容
理论学时
实验学时
其它
1
第1章广电大数据用户画像需求分析
2
0
2
第2章部署开发环境
4
4
3
第3章广电用户数据存储
4
4
4
第4章广电用户基本数据简单查询
4
4
5
第5章广电用户账单与订单数据查询进阶
4
4
6
第6章广电用户收视行为数据查询优化
6
4
7
第7章广电用户数据清洗及数据导出
6
4
8
第8章广电用户数据存储与处理的程序开发
6
4
总计
36
28
教学内容及学时安排
理论教学
序号
章节名称
主要内容
教学目标
学时
1
广电大数据用户画像需求分析
需求分析与架构
认识Hive
了解广电大数据用户画像需求分析的背景
了解目前常见的几种大数据存储产品
了解Hive原理架构和Hive的主要特点
了解Hive和传统数据库的主要区别
2
2
部署开发环境
安装部署Hadoop集群
安装部署Hive
使用HiveCLI
掌握Hadoop集群的安装部署方法
掌握MySQL数据库的安装配置方法
掌握Hive的安装配置及启动方法
掌握HiveCLI的使用方法
4
3
广电用户数据存储
创建业务数据表
将数据导入Hive表
掌握在Hive中创建与管理数据库的操作
了解Hive的基础数据类型和复杂数据类型
掌握在Hive中创建与管理表的常用操作
掌握装载数据至Hive表的操作
4
4
广电用户基本数据简单查询
查询广电用户的用户编号及开户时间
查询指定用户状态的用户基本数据
统计用户基本数据表中品牌名称的种类个数
统计不同用户等级名称的记录数
统计不同用户状态的
记录数
统计指定用户数量范围的用户等级
统计用户数最多的3种用户状态
查询用户发生状态变更的时间及开户时间
了解SELECT语句基本的语法
掌握使用WHERE关键字实现条件查询的方法。掌握表别名、列别名的使用方法
掌握聚合函数的使用方法
掌握分组查询的实现方法
了解不同排序关键字之间的区别
掌握使用通配符、正则表达式实现模糊查询的方法
4
5
广电用户账单与订单数据查询进阶
统计订单的消费类型
统计用户每年消费应付总额
统计用户每月消费应付总额
统计用户每月实际账单金额
查询用户宽带订单的地址数据
抽样统计用户订购产品情况
了解常见的Hive内置函数
掌握条件函数、字符函数、日期函数及数学函数的使用方法
掌握各类JOIN语句的使用方法
掌握JOIN语句与UNIONALL关键字的区别
掌握桶表中抽样查询的使用方法
4
6
广电用户收视行为数据查询优化
使用视图统计不同节目的用户观看人数
优化统计直播频道数
使用子查询统计节目类型为直播的频道Top10
掌握Hive查询优化的方法
掌握Hive视图的使用方法
了解配置Fetch抓取的方法
掌握Hive设置map和reduce任务数的方法
掌握Hive配
您可能关注的文档
- Hive大数据存储与处理 教案 第2章 部署开发环境 教案.docx
- Hive大数据存储与处理 教案 第1章 广电大数据用户画像需求分析 教案.docx
- Hive大数据存储与处理 教案 第3章 广电用户数据存储 教案.docx
- Hive大数据存储与处理 教案 第4章 广电用户基本信息简单查询 教案.docx
- Hive大数据存储与处理 教案 第5章 广电用户账单与订单数据查询进阶 教案.docx
- Hive大数据存储与处理 教案 第6章 广电用户收视行为数据查询优化 教案.docx
- Hive大数据存储与处理 教案 第7章 广电用户数据清洗及数据导出 教案.docx
- Hive大数据存储与处理 教案 第8章 广电用户数据存储与处理的程序开发 教案.docx
- Hive大数据存储与处理 教案全套 第1--8章 广电大数据用户画像需求分析--- 广电用户数据存储与处理的程序开发 .docx
- Hive大数据存储与处理-教学进度表 .docx
- 2024年陕西财经职业技术学院专任教师招考聘用42人笔试历年典型考题及考点剖析附答案详解.docx
- [吉安]2023年江西吉安职业技术学院招聘非编教师笔试历年高频考点(难、易错点)附带答案详解.docx
- [南京]2024年江苏南京市玄武区编外教师校医会计招聘50人笔试历年高频考点(难、易错点)附带答案详解.docx
- 2024年河南省定向重庆大学选调应届优秀毕业生5笔试历年典型考题及考点剖析附答案详解.docx
- [吉安]江西吉安市阳明中学招聘高层次人才笔试历年高频考点(难、易错点)附带答案详解.docx
- [云南]2023年云南省传染病医院招聘非事业编制工作人员笔试历年高频考点(难、易错点)附带答案详解.docx
- [上海]2023年上海市众仁慈善服务中心招聘医护人员3名笔试历年高频考点(难、易错点)附带答案详解.docx
- 2024年江苏省淮安市引进“名校优生”61人(卫生类)笔试历年典型考题及考点剖析附答案详解.docx
- [周口]2023年河南项城市幼儿园教师校园招聘188人笔试历年高频考点(难、易错点)附带答案详解.docx
- 2024年3月上半年四川内江市市中区事业单位招考聘用5人笔试历年典型考题及考点剖析附答案详解.docx
文档评论(0)