网站大量收购闲置独家精品文档,联系QQ:2885784924

《Hive数据仓库技术与应用案例教程》教案 项目1 数据仓库与Hive.docx

《Hive数据仓库技术与应用案例教程》教案 项目1 数据仓库与Hive.docx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE16

PAGE16

PAGE15

PAGE15

《Hive数据仓库技术与应用案例教程》

教案

课时分配表

章序

课程内容

课时

备注

1

数据仓库与Hive

4

2

Hive基础

2

3

Hive数据定义

4

4

Hive数据导入与导出

4

5

Hive数据查询

8

6

Hive函数

6

7

Hive性能优化

2

8

分析二手房数据

2

合计

32

课题

数据仓库与Hive

课时

4课时(180min)

教学目标

知识目标:

(1)熟悉数据仓库的特征和相关概念

(2)掌握数据仓库的模型设计

(3)理解维度建模法和数据仓库分层

(4)熟悉Hive的体系结构

(5)理解Hive的运行原理

(6)掌握Hive的三种部署模式

技能目标:

(1)能够采用嵌入模式部署Hive

(2)能够采用本地模式部署Hive

(3)能够采用远程模式部署Hive

素养目标:

(1)养成刻苦、勤奋、好问、独立思考和细心检查的学习习惯

(2)学习共享精神,实现资源的共同利用,从而推动社会的共同进步和繁荣

教学重难点

教学重点:数据仓库的特征、相关概念和模型设计,Hive的体系结构、运行原理和部署模式

教学难点:分别采用嵌入模式、本地模式和远程模式部署Hive

教学方法

案例分析法、问答法、讨论法、讲授法

教学用具

电脑、投影仪、多媒体课件、教材

教学过程

主要教学内容及步骤

课前任务

【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务

了解当前Hive数据仓库技术的现状,以及未来的发展趋势。

【学生】完成课前任务

考勤

【教师】使用APP进行签到

【学生】班干部报请假人员及原因

新课预热

【教师】自我介绍,与学生简单互动,介绍课程内容、考核标准等

【学生】聆听、互动

【教师】讲一些涉及Hive数据仓库技术的应用案例,解释学习该课程的作用

【学生】聆听、记录、理解

问题导入

【教师】播放“数据仓库与数据库”视频(详见教材),提出以下问题:

(1)简述数据库与数据仓库的区别。

(2)简述MySQL与Hive的异同。

【学生】思考、举手回答

传授新知

【教师】通过学生的回答引入要讲的知识,讲解数据仓库的特征、概念、模型设计,维度建模法和数据仓库分层架构,以及Hive的功能、体系结构、运行原理和部署模式等知识

1.1数据仓库概述

数据仓库(datawarehouse,DW)是一个面向主题的、集成的、相对稳定的、随时间变化的数据集合。设计并构建数据仓库,可以帮助企业有效地整合、存储、管理和分析大规模数据,从而为企业规划业务发展和制订战略决策等提供数据支持。

1.1.1数据仓库的特征

上述的数据仓库定义指出了它的4个特征。

(1)数据仓库是面向主题的,这意味着数据仓库是针对企业的某个特定主题或问题而设计的。主题是一个抽象概念,每个主题通常对应一个或多个表,这些表包含与主题相关的数据。

(2)数据仓库是集成的,这意味着数据仓库可以从多个数据源中获取数据,并将数据集成到一个统一的数据模型中,以确保数据的一致性和准确性。

(3)数据仓库是相对稳定的,这意味着数据仓库中的数据一般是只读的,也可以理解为不允许在数据仓库中直接修改数据,以确保数据的完整性和稳定性。

(4)数据仓库是随时间变化的,这意味着数据仓库随时间变化不断增加新的数据;如果数据超过存储期限,数据仓库随时间变化不断删除旧的数据。

1.1.2数据仓库相关概念

数据仓库涉及许多专业名词,如“主题域”“维度”“指标”“粒度”“元数据”等,了解它们的基本概念有助于理解数据仓库的相关知识。

(1)主题域。主题域是指在一个特定的业务领域中,具有共同特征和关注点的业务实体、属性、关系和行为的集合。在销售业务分析中,可以将主题域划分为客户管理、产品管理和订单管理等。

(2)维度。维度是对业务过程中的某方面进行描述的属性集合。在销售业务分析中,可以从时间、地点、产品和客户等维度描述订单。

(3)指标。指标是用于分析、衡量和评估业务性能的度量值。这些度量值通常是从业务活动中收集和计算得出的,用于分析、预测和决策支持。在销售业务分析中,可以将指标设置为销售量、销售额、销售增长率等,以便从不同的角度分析业务数据。

(4)粒度。粒度是指数据在数据仓库中的组织层次和细节程度。粒度越小,细节程度越高,查询范围就越小;相反,粒度越大,细节程度越低,查询范围就越大。在销售业务分析中,可以将粒度划分为高级别粒度(年)、中级别粒度(月)和低级别粒度(日)等。

(5)元数据(metadata)。元数据是关于数据库、表、字段等的所有信息的描述,包括表存储格式、存储位置和数据类型等。

1.1.3数据仓库模型设计

?【教师】利用多媒体展示“数据仓库模型的建模过程”图

文档评论(0)

1亿VIP精品文档

相关文档