- 1、本文档共35页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据分析与实战项目1搭建Spark开发环境
在Linux系统下,搭建Spark开发环境,并初步体验SparkShell编程。在借鉴MapReduce优点基础上,新一代大数据计算引擎Spark应运而生,已经成为当前大数据计算的主流技术。情境导入Spark
项目分解Spark序号任务任务说明1认识大数据了解大数据的内涵、产生的来源,理解大数据处理的流程。2搭建Hadoop基础平台了解Hadoop平台的基本原理,在本地环境建立Hadoop基础平台(伪分布模式),并初步体验其用法。3部署Spark计算平台了解Spark平台的基本原理,在本地Linux环境建立Spark计算平台,并初步体验其用法。
能够独立搭建Hadoop大数据基础平台。了解Hadoop、Spark平台的产生背景与功能。能够独立搭建Spark分布式计算平台。123学习目标Spark
项目1搭建Spark开发环境Spark任务1拥抱大数据时代搭建Hadoop基础平台部署Spark计算平台任务2任务3
任务分析Spark大数据、人工智能、5G等新一代IT技术风起云涌,社会已经步入大数据时代。何为大数据?大数据具备哪些特征?大数据从哪里产生的?如何处理大数据,并产生有价值的分析结果?本任务将带领您探寻答案。
大数据时代已然来临Spark当前,数据的来源及其数量正以前所未有的速度增长;2025年全球数据总量将增长到175ZB(约合200万亿GB),10年增长10余倍,复合增长率为26%。从资源的角度,数据被视为“未来的石油”,被作为战略性资产进行管理。在国家治理角度,大数据被用来提升治理效率,重构治理模式,破解治理难题,它将掀起一场国家治理革命。从经济增长角度,大数据是全球经济低迷大背景下的产业亮点,是战略新兴产业中最活跃的部分。从国家安全角度,全球数据空间没有国界边疆,大数据能力成为大国之间博弈和较量的利器。
大数据的内涵与特征Spark通常,大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。大数据具有如下4个特点(简称4v):Volume:表示大数据的数据体量巨大。Velocity:表示大数据的数据产生、处理和分析的速度在持续加快。Variety:表示大数据的数据类型繁多。Value:表示大数据的数据价值密度低。
大数据来自哪里?Spark(1)运营式系统(2)用户原创内容(3)感知式系统
大数据处理过程Spark(1)数据收集:通过Web爬虫、数据库接口、服务器日志等手段采集数据。(2)数据预处理:包括数据清理、数据集成、数据归约与数据转换等内容,可以极大提升数据的总体质量。(3)数据处理与分析:综合应用IT技术、统计学、机器学习、人工智能等知识,分析现有数据(分布式统计分析),然后挖掘数据背后隐含的有价值信息(通过聚类与分类、推荐、关联分析、深度学习等算法,对未知数据进行分布式挖掘)。(4)数据可视化与应用?:可视化图表形式展示;分析处理后的结果应用于管理决策、战略规划等。
相关知识小结Spark大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合;大数据的特点:Volume、Velocity、Variety和Value。大数据处理阶段:采集、预处理、分析、可视化等借助互联网手段,查找大数据热点词汇;整合同学收集的热点词汇,构建一个词云。任务实施
项目1搭建Spark开发环境Spark任务1拥抱大数据时代搭建Hadoop基础平台部署Spark计算平台任务2任务3
任务分析Spark自2004年诞生以来,Hadoop逐渐成为大数据领域的重要事实标准;而Spark可以独立安装使用,也可以和Hadoop一起协同应用,这样一方面可以发挥Spark内存计算的优势,另外一方面发挥Hadoop分布式存储与资源调度的强项。本项任务将带领读者初步了解Hadoop生态,并搭建Hadoop环境,为后续Spark环境部署做好准备。
认识Hadoop生态SparkHadoop是一个由Apache基金会开发的大数据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发、运行分布式程序,充分利用集群的优势,进行高效运算和存储。
Hadoop环境的搭建SparkHadoop运行模式包括单机模式、伪分布模式、完全分布式模式等;真实的项目应用中,Hadoop是运行在Linux之上的,因此需安装好Linux操作系统。Linux安装:(1)安装虚拟化工具VirtualBox或VMware;(2)在VirtualBox(VMware)中安装Linux系统(建议选择Ubuntu,对新手比较友
您可能关注的文档
- Spark大数据分析与实战(第二版) 项目1 教案.docx
- Spark大数据分析与实战(第二版) 项目2 教案.docx
- Spark大数据分析与实战(第二版) 项目3 教案.docx
- Spark大数据分析与实战(第二版)考试样题 Spark大数据技术A卷.doc
- Spark大数据分析与实战(第二版)考试样题 Spark大数据技术B卷.doc
- Spark大数据分析与实战(第二版) 课程标准 .docx
- Spark大数据分析与实战(第二版) 课件 项目4 IDEA下分析碳排放数据.pptx
- Spark大数据分析与实战(第二版) 课件 项目2 Scala程序处理新能源汽车销售数据.pptx
- Spark大数据分析与实战(第二版) 课件 项目3 Spark RDD分析交通违章记录.pptx
- 谈谈加快建设现代化产业体系的重大任务举措.pptx
文档评论(0)