- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE2
PAGE2
PAGE7
PAGE7
课题
Hive性能优化
课时
2课时(90min)
教学目标
知识目标:
(1)掌握存储优化的方法
(2)熟悉参数优化的方法
(3)掌握查询优化的方法
技能目标:
(1)能够使用存储优化方法优化Hive性能
(2)能够使用不同的参数优化方法优化Hive性能
(3)能够使用不同的查询优化方法优化Hive性能
素养目标:
(1)发扬精益求精的工匠精神,养成严谨认真的工作态度
(2)培养优化意识,持续提升个人能力
教学重难点
教学重点:存储优化、参数优化和查询优化的方法
教学难点:使用不同优化方法优化Hive性能
教学方法
案例分析法、问答法、讨论法、讲授法
教学用具
电脑、投影仪、多媒体课件、教材
教学过程
主要教学内容及步骤
课前任务
【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务
请大家了解Hive性能优化的相关知识。
【学生】完成课前任务
考勤
【教师】使用APP进行签到
【学生】班干部报请假人员及原因
问题导入
【教师】提出以下问题:
(1)常用的数据压缩格式有哪些?
(2)在Hive中,可以从哪些方面优化JOIN语句?
【学生】思考、举手回答
传授新知
【教师】通过学生的回答引入要讲的知识,介绍存储优化、参数优化、查询优化的相关知识
7.1存储优化
在?Hive?中,存储优化是指根据实际需求使用合适的表存储格式和数据压缩格式,从而提高数据查询速度、降低存储成本等。
TextFile?表存储格式的特点是数据加载速度快,但是本身不支持数据压缩;SequenceFile?表存储格式的特点是压缩比低,数据查询速度一般,数据加载速度较快;ORC表存储格式的特点是压缩比高,数据查询速度快,数据加载速度慢;Parquet表存储格式的特点是压缩比高,数据查询速度快,数据加载速度慢。在实际应用中,用户可以根据实际需求选择不同的表存储格式,从而平衡压缩比、数据查询速度和数据加载速度。
?【教师】利用多媒体展示“常用的数据压缩格式”表格,并进行讲解
压缩数据可以减少磁盘的存储空间,降低I/O传输的开销。常用的数据压缩格式包括Bzip2、Zlib、Gzip、LZO和Snappy等,详细介绍如表所示。
常用的数据压缩格式
数据压缩格式
压缩比
压缩速度
是否可分割
Bzip2
高
慢
是
Zlib
中
中
否
Gzip
中
中
否
LZO
低
快
是
Snappy
低
快
否
结合使用合适的表存储格式和数据压缩格式,可以进一步优化Hive的存储空间和数据查询速度。在实际应用中,通常将ORC表存储格式与Bzip2、Zlib或Snappy数据压缩格式结合使用。针对需要节省存储空间,但不要求执行效率的情况,可以将ORC表存储格式与Bzip2或Zlib数据压缩格式结合使用。针对需要提高执行效率,但不要求节省存储空间的情况,可以将ORC表存储格式与Snappy数据压缩格式结合使用。
【例?7-1】在数据库hive_database中创建表student_orc_snappy,并指定表存储格式为ORC,数据压缩格式为Snappy,执行的语句如下。
…/USEhive_database;
…/CREATETABLEstudent_orc_snappy(
idINT,nameSTRING,ageINT)
STOREDASORC
TBLPROPERTIES(press=Snappy);
?【教师】随机邀请学生回答以下问题:
使用TBLPROPERTIES语句配置表student_orc_snappy的press(ORC的数据压缩格式)属性值是什么?
?【学生】聆听、思考、回答
?【教师】总结学生的回答
使用TBLPROPERTIES语句配置表student_orc_snappy的press(ORC的数据压缩格式)属性值为Snappy。
7.2参数优化
在Hive中,参数优化是指通过配置不同的参数实现不同的功能,从而提高数据查询的执行效率、减少资源消耗、优化任务执行计划。配置参数可以分为临时配置和永久配置。其中,临时配置是指使用SET关键字指定参数和参数对应的值,若退出当前会话,该配置会自动消失;永久配置是指在配置文件“hive-site.xml”中指定参数和参数对应的值,该配置只要不删除,将永久生效。
?【教师】随机邀请学生回答以下问题:
ETL工具有哪些作用?
?【学生】聆听、思考、回答
?【教师】总结学生的回答
查看当前参数值的语法格式如下。
SETparameter_name;
其中,parameter_name表示参数名称。
7.2.1配置MapReduce压缩
执行MapRedu
您可能关注的文档
- 《Hive数据仓库技术与应用案例教程》教案 项目3 Hive数据定义.docx
- 《Hive数据仓库技术与应用案例教程》教案 项目4 Hive数据导入与导出.docx
- 《Hive数据仓库技术与应用案例教程》教案 项目5 Hive数据查询.docx
- 《Hive数据仓库技术与应用案例教程》教案 项目6 Hive函数.docx
- 《Hive数据仓库技术与应用案例教程》教案 项目8 分析二手房数据.docx
- 《HBase数据库应用案例教程》教案 项目1 HBase数据库基础.docx
- 《HBase数据库应用案例教程》教案 项目3 HBase客户端API.docx
- 《HBase数据库应用案例教程》教案 项目2 HBase Shell.docx
- 《HBase数据库应用案例教程》教案 项目4 HBase客户端API进阶.docx
- 84-钢筋混凝土通风采光窗井 07FG05.docx
- DB29-144-2010天津市地下铁道盾构法隧道工程施工技术规程.docx
- 浙江省杭州地区(含周边)重点中学2024-2025学年高一上学期11月期中考试英语试题2.docx
- 2021-2022学年江西省抚州市崇仁县五年级下册期末检测英语试卷.docx
- 吉林省辽源市田家炳高级中学高三(六十五届)友好学校下学期期末联考文科综合地理试题扫描版含答案.doc
- 云南省新平一中高三教学质量检测(七)生物.doc
- 河南省名校大联考2024-2025学年高一上学期12月月考历史试题2.docx
- 99R101 燃煤锅炉房工程设计施工图集55.docx
- D503-D505防雷与接地(下册)彩色版.docx
- 70-通风管道沿程阻力计算选用表 08K-508.docx
- 18GL204 预制混凝土综合管廊_3395.docx
最近下载
- 中小学开学第一课思政主题班会PPT课件.pptx
- 2024年镇江高等专科学校单招综合素质考试试题及答案解析.docx
- 2025江苏中职职教高考-语文-讲义知识考点复习资料.pdf VIP
- 附件4 盐都区河道“河长制”管理考核河道河段评分表.doc
- 医院内部控制管理手册.pdf VIP
- 初中语文七年级现代文阅读理解精选:说明文20篇(含答案).pdf VIP
- 拓尔微产品规格书TMI6263.pdf
- [中央]2023年全国市长研修学院(住房和城乡建设部干部学院)招聘社会人员 笔试上岸试题历年典型考题及考点剖析附答案详解.docx VIP
- (完整版)高一函数大题训练及答案.doc VIP
- 《固废基无熟料、少熟料硅铝质水泥》.pdf
文档评论(0)