Spark大数据分析与实战（第二版）项目1 教案.docx

下载文档

2
0
约3.29千字
约 5页
2025-04-17 发布于山东
举报
版权申诉
保障服务

Spark大数据分析与实战（第二版）项目1 教案.docx

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

PAGE32

课程名称

Spark大数据分析

选用教材

Spark大数据分析与实战（第2版）

出版社

西安电子科技大学出版社

章节

项目1搭建Spark开发环境

教学内容

基于Ubuntu系统，搭建Spark开发环境（含Hadoop伪分布）

授课学时

授课班级

****专业*****班

授课日期

授课地点

教学目标

初步了解大数据的相关知识，了解Hadoop、Spark平台的产生背景与功能；

能够在本地环境（Ubuntu系统）中，独立搭建Hadoop伪分布基础平台；

能够在本地环境（Ubuntu系统）中，独立搭建Spark计算平台。

重点难点

Spark的原理、运行的基本逻辑；

在Ubuntu系统中，完成Hadoop的安装；

在Ubuntu系统中，完成Spark的安装；

教学方法

R讲授￡讨论或座谈￡问题导向学习￡分组合作学习￡案例教学￡任务驱动

R项目教学￡情景教学￡演示汇报￡实践教学￡参观访问￡引导文教学￡其他(--)

教学准备（教师）

教材：《Spark大数据分析与实战（第2版）》

硬件设备：内存8G（或以上）的计算机

（2）教学资源：课件PPT、教学日历、相关软件等

教学准备

（学生）

教材：《Spark大数据分析与实战（第2版）》

硬件设备：内存8G（或以上）的计算机

（3）教学资源：课件PPT、相关软件等

教学环节

教学内容与过程

（教学内容、教学方法、组织形式、教学手段）

课前组织

教师通过课程教学平台或班级群发布学习预习任务及课程资源；学生提前预习相关内容，并完成课前自测等。

课程内容描述

情境导入

随着Hadoop等大数据平台的日渐成熟，大数据应用不断落地，社会已然进入大数据时代；但Hadoop本身存在的缺陷也不断暴露，MapReduce计算模型因其先天不足，已经无法适应实时计算需求。在借鉴MapReduce优点基础上，新一代大数据计算引擎Spark应运而。学习Spark技术，首先要了解大数据、Hadoop、Spark等热点的背景，进而着手搭建一个Spark运行环境。

任务1.1拥抱大数据时代

1.大数据时代已然到来

2025年全球数据总量将增长到175ZB（约合200万亿GB），10年增长10余倍，复合增长率为26%。从资源的角度，数据被视为“未来的石油”，被作为战略性资产进行管理。

大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。大数据具备Volume、Velocity、Variety和Value四个特征（简称“4V”，即体量巨大、速度快、类型繁多和价值密度低）。

2.大数据来自哪里？

（1）运营式系统阶段

（2）用户原创内容阶段

（3）感知式系统阶段

如何处理大数据？

（1）数据收集：通过Web爬虫、数据库接口、服务器日志等手段采集数据；

（2）数据预处理：包括数据清理、数据集成、数据归约与数据转换等内容，可以极大提升数据的总体质量

（3）数据处理与分析：综合应用IT技术、统计学、机器学习、人工智能等知识，分析现有数据（分布式统计分析），然后挖掘数据背后隐含的有价值信息（通过聚类与分类、推荐、关联分析、深度学习等算法，对未知数据进行分布式挖掘）

（4）数据可视化与应用?：可视化图表形式展示；分析处理后的结果应用于管理决策、战略规划等。

任务1.2搭建Hadoop基础平台

Hadoop是一个由Apache基金会开发的大数据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，轻松地在Hadoop上开发、运行分布式程序，充分利用集群的优势，进行高效运算和存储。

Hadoop运行模式包括单机模式、伪分布模式及分布式模式。

准备工作：（1）VirtualBox工具安装Ubuntu，创建hadoop用户；

（2）设置SSH免密登录

（3）安装JDK

使用如下命令完成Hadoop包的解压、重命名等工作。

sudotar-zxvfhadoop-3.3.5.tar.gz-C/usr/local#Hadoop包解压到/usr/local

sudomv/usr/local/hadoop-3.3.5//usr/local/hadoop#目录改名，便于后续操作

sudochown-Rhadoop:hadoop/usr/local/hadoop#目录拥有者改为hadoop用户

修改Hadoop的两个配置文件core-site.xml和hdfs-site.xml（位于目录/usr/local/hadoop/etc/hadoop/下）；

使用命令“/usr/local/hadoop/bin/hdfsnamenode-format”，

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Spark大数据分析与实战（第二版）项目1 教案.docx