《数据仓库技术(Hive)》课程标准(高职).docx

《数据仓库技术(Hive)》课程标准(高职).docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《数据仓库技术(Hive)》课程标准 一、基本信息 学习领域:大数据技术与应用 制定时间:2019 年 6 月适用专业:大数据专业 所属系部:计算机系 参考学时:64 学时 学 分:4 制 定 人:林平 批 准 人:李瑞兴二、课程性质 本课程是基于大数据背景下的数据仓库技术 Hive 的理论结合实践教学。 Hive 是 Hadoop 生态系统中必不可少的一个工具,它提供了一种 SQL(结构化查询语言)方言,可以查询存储在 Hadoop 分布式文件系统(HDFS)中的数据或其他和 Hadoop 集成的文件系统。 大多数数据仓库应用程序都是使用关系数据库进行实现的,并使用 SQL 作为查询语言。Hive 降低了将这些应用程序转移到 Hadoop 系统上的难度。凡是会使用 SQL 语言的学生都可以很轻松地学习并使用 Hive。 三、课程目标 (一)专业能力目标 Hive 数据仓库技术,旨在介绍如何使用 Hive 的SQL 方法——HiveQL 来汇总、查询和分析存储在 Hadoop 分布式文件系统上的大数据集合。本课程通过大量的实例,首先介绍如何在用户环境下安装和配置 Hive,并对 Hadoop 和 MapReduce进行详尽阐述,演示 Hive 如何在 Hadoop 生态系统进行工作。 学生将具备: 了解数据仓库概念 安装 Hive,并掌握常用命令 掌握 Hive 数据类型和文件格式掌握 HiveQL 基础操作 掌握 HiveQL 视图与索引 掌握模式是设计 (二)方法能力目标 具有有限条件下思考问题的能力、理性思维分析能力。 初步具有以定性和定量相结合的方法分析和解决数据仓库方面问题的能 力 序号任 务一任 务二任 务三任 务四 序号 任 务一 任 务二 任 务三 任 务四 任 务五 任 务六 任 务七 任 务八 任务九 任 务十 工作任务称 基 础知识 基 础操作 数 据类 型和 文件 格 式 HiveQ L:数据 定义 Hive QL :数 据操作 HiveQ L:查询 Hive QL :视图 HiveQ L:索引 模式设计 Hive开发 学时 4 4 8 8 8 4 8 4 12 4 学时合计:64 学时(其中实践教学学时比例为 25 %) 理论学时:48 实践学时:16 序号 工作任务划分 教学目标和主要内容 参考学时 知识目标 能力目标 1 任务一:基础知识 Hive数据仓库基础知识 1.1Hadoop 和 MapReduce 综述 1.2Hadoop 生态系统中的 Hive 1.3Java 和 Hive:词频统计算法 4 2 任务二: 基础操作 Hive的基本命令操作 安装预先配置好的虚拟机 安装详细步骤 2.3Hive 内部是什么 启动 Hive 配置 Hadoop 环境 2.6Hive 命令 2.7 命令行界面 4 3 任务三: 数据类型和文件格式 Hive的数据类型与文件格式 基本数据类型 集合数据类型 文本文件数据编码 读时模式 8 4 任务四: HiveQL:数据定义 4.1Hive 中的数据库 8 HiveQL:数据定义 修改数据库 创建表 分区表、管理表 删除表 修改表 5 任务五: HiveQL:数据操作 HiveQL:数据操作 向管理表中装载数据 通过查询语句向表中插入数据 单个查询语句中创建表并加载数据 导出数据 8 6 任务六: HiveQL:查询 HiveQL:查询 SELECT…FROM 语句 WHERE 语句 E GROUPBY 语句 JOIN 语句 ORDERBY 和 SORTBY 含有 SORTBY 的 DISTRIBUTEBY 6.7CLUSTERBY 类型转换 抽样查询 6.10UNIONALL 4 7 任务七: HiveQL:视图 HiveQL:视图 使用视图来降低查询复杂度 使用视图来限制基于条件过滤的数据 动态分区中的视图和 map 类型 视图零零碎碎相关的事情 8 8 任务八: HiveQL:索引 HiveQL:索引 创建索引 重建索引 显示索引 删除索引 实现一个定制化的索引处理器 4 9 任务九: 模式设计 模式设计 按天划分的表 关于分区 唯一键和标准化 同一份数据多种处理 对于每个表的分区 分桶表数据存储 为表增加列 使用列存储表 9.9(几乎)总是使用压缩 12 10 任务十: Hive开发 Hive开发 修改 Log4J 属性 连接 Java 调试器到 Hive 从源码编译 Hive 配置 Hive 和 Eclipse 4 Maven 工程中使用 Hive Hive 中使用 hive_test 进行单元测试 新增的插件开发工具箱(PDK) 五、考核标准 1.考核方式 理论与实践一体化评价。本课程考核含过程考核和结果考核。过程考核重点考察学生平时出勤、课堂表现

文档评论(0)

tuo1317 + 关注
实名认证
内容提供者

教师资格证持证人

知识分享

领域认证该用户于2023年05月12日上传了教师资格证

1亿VIP精品文档

相关文档