- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE32
课程名称
Spark大数据分析
选用教材
Spark大数据分析与实战(第2版)
出版社
西安电子科技大学出版社
章节
项目1搭建Spark开发环境
教学内容
基于Ubuntu系统,搭建Spark开发环境(含Hadoop伪分布)
授课学时
4
授课班级
****专业*****班
授课日期
授课地点
教学目标
初步了解大数据的相关知识,了解Hadoop、Spark平台的产生背景与功能;
能够在本地环境(Ubuntu系统)中,独立搭建Hadoop伪分布基础平台;
能够在本地环境(Ubuntu系统)中,独立搭建Spark计算平台。
重点难点
Spark的原理、运行的基本逻辑;
在Ubuntu系统中,完成Hadoop的安装;
在Ubuntu系统中,完成Spark的安装;
教学方法
R讲授£讨论或座谈£问题导向学习£分组合作学习£案例教学£任务驱动
R项目教学£情景教学£演示汇报£实践教学£参观访问£引导文教学£其他(--)
教学准备(教师)
教材:《Spark大数据分析与实战(第2版)》
硬件设备:内存8G(或以上)的计算机
(2)教学资源:课件PPT、教学日历、相关软件等
教学准备
(学生)
教材:《Spark大数据分析与实战(第2版)》
硬件设备:内存8G(或以上)的计算机
(3)教学资源:课件PPT、相关软件等
教学环节
教学内容与过程
(教学内容、教学方法、组织形式、教学手段)
课前组织
教师通过课程教学平台或班级群发布学习预习任务及课程资源;学生提前预习相关内容,并完成课前自测等。
课程内容描述
情境导入
随着Hadoop等大数据平台的日渐成熟,大数据应用不断落地,社会已然进入大数据时代;但Hadoop本身存在的缺陷也不断暴露,MapReduce计算模型因其先天不足,已经无法适应实时计算需求。在借鉴MapReduce优点基础上,新一代大数据计算引擎Spark应运而。学习Spark技术,首先要了解大数据、Hadoop、Spark等热点的背景,进而着手搭建一个Spark运行环境。
任务1.1拥抱大数据时代
1.大数据时代已然到来
2025年全球数据总量将增长到175ZB(约合200万亿GB),10年增长10余倍,复合增长率为26%。从资源的角度,数据被视为“未来的石油”,被作为战略性资产进行管理。
大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。大数据具备Volume、Velocity、Variety和Value四个特征(简称“4V”,即体量巨大、速度快、类型繁多和价值密度低)。
2.大数据来自哪里?
(1)运营式系统阶段
(2)用户原创内容阶段
(3)感知式系统阶段
如何处理大数据?
(1)数据收集:通过Web爬虫、数据库接口、服务器日志等手段采集数据;
(2)数据预处理:包括数据清理、数据集成、数据归约与数据转换等内容,可以极大提升数据的总体质量
(3)数据处理与分析:综合应用IT技术、统计学、机器学习、人工智能等知识,分析现有数据(分布式统计分析),然后挖掘数据背后隐含的有价值信息(通过聚类与分类、推荐、关联分析、深度学习等算法,对未知数据进行分布式挖掘)
(4)数据可视化与应用?:可视化图表形式展示;分析处理后的结果应用于管理决策、战略规划等。
任务1.2搭建Hadoop基础平台
Hadoop是一个由Apache基金会开发的大数据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发、运行分布式程序,充分利用集群的优势,进行高效运算和存储。
Hadoop运行模式包括单机模式、伪分布模式及分布式模式。
准备工作:(1)VirtualBox工具安装Ubuntu,创建hadoop用户;
(2)设置SSH免密登录
(3)安装JDK
使用如下命令完成Hadoop包的解压、重命名等工作。
sudotar-zxvfhadoop-3.3.5.tar.gz-C/usr/local#Hadoop包解压到/usr/local
sudomv/usr/local/hadoop-3.3.5//usr/local/hadoop#目录改名,便于后续操作
sudochown-Rhadoop:hadoop/usr/local/hadoop#目录拥有者改为hadoop用户
修改Hadoop的两个配置文件core-site.xml和hdfs-site.xml(位于目录/usr/local/hadoop/etc/hadoop/下);
使用命令“/usr/local/hadoop/bin/hdfsnamenode-format”,
您可能关注的文档
- 现代推销学教材 第二章配套习题.pptx
- 现代推销学教材 第八章配套习题.pptx
- 现代推销学教材 第九章配套习题.pptx
- 现代推销学教材 第六章配套习题.pptx
- 现代推销学教材 第七章配套习题.pptx
- 现代推销学教材 第三章配套习题.pptx
- 现代推销学教材 第十一章配套习题.pptx
- 现代推销学教材 第十章配套习题.pptx
- 现代推销学教材 第四章配套习题.pptx
- 现代推销学教材 第五章配套习题.pptx
- 1.1.4同底数幂的除法 课件 北师大版数学七年级下册.pptx
- 2.3伴性遗传(第1课时) 课件-课件-2024-2025学年下学期高一生物(人教版)必修2.pptx
- 【课件】轴对称及其性质+(课件)2025-2026学年人教版八年级数学上册.pptx
- +Module+5+Unit+2+P2+课件+++2024-2025学年外研版(2012)九年级英语上册.pptx
- 1.1古代埃及 课件 2025—2026学年部编版历史九年级上学期.pptx
- 1.1正数和负数+(课件)2025-2026学年人教版七年级数学上册.pptx
- 2.1 正数与负数(教学课件)-2025-2026学年七年级数学上册(苏科版2024).pptx
- 1.3.3完全平方公式 课件 北师大版数学七年级下册.pptx
- 2.5动荡变动中的春秋时期 课件 2025-2026学年统编版七年级历史上册.pptx
- 1.2.1 有理数的概念(教学课件)-2025-2026学年七年级数学上册(人教版2024).pptx
文档评论(0)