- 1、本文档共78页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第1章Spark大数据平台与环境搭建Spark大数据分析与实战
01Spark大数据平台介绍Spark大数据环境搭建0203Python核心语法概览目录CONTENTS
01Spark大数据平台介绍Spark是什么Spark与大数据的应用场景Spark编程环境(PySpark)Spark应用程序原理
Spark是什么2009年,Spark诞生于伯克利大学的AMPLab实验室2010年,伯克利大学正式开源了Spark项目2013年6月,Spark成为了Apache基金会下的项目2014年2月,Spark以飞快的速度成为了Apache的顶级项目2015年至今,Spark变得愈发火爆,国内大量企业开始重点部署或者使用Spark平台2016年Spark2.0发布2019年Spark3.0发布ApacheSpark在2009年诞生于的U.C.Berkeley的AMPLab实验室,在2010?年被开源,2013年被捐赠给Apache软件基金会(ApacheSoftwareFoundation),目前已发展到3.x版本
Spark是什么ApacheSpark是一种用于大数据分析与处理的分布式系统,是一个多语言的开源“数据引擎。Spark框架使用Scala语言编写,借鉴MapReduce思想,保留了分布式并行计算的优点,改进了其存在的明显缺陷,提供了丰富的操作数据的API接口,大大提高了开发效率,并在全球各行各业得到了广泛应用Spark将中间计算数据优先缓存在内存中,迭代计算时直接从内存中读取,只在必要时才将部分数据写入磁盘中,大幅提高了运算速度,还使用DAG(DirectedAcyclicGraph,有向无环图)调度程序、查询优化器和物理执行引擎,在进行离线批量处理数据时具有较高的性能,并且在实时流数据处理时也具有较高的吞吐量
Spark是什么Spark提供了一个大数据分析处理的统一解决方案,可应用于批处理、交互式查询(SparkSQL)、实时流处理(SparkStreaming)、机器学习(MLlib)和图计算(GraphX)等场景,这些不同类型的处理工作可以在同一个应用中无缝实现,企业使用一个平台就可以实现不同的工程操作,减少了人力开发和平台部署的成本SparkCore是Spark大数据平台的核心模块,它实现了Spark的分布式数据集、计算任务调度、内存管理、错误恢复、存储系统交互等基本功能SparkSQL模块是强大的用来处理结构化数据的程序包,可以方便地编写SQL语句直接操作数据SparkStreaming是Spark提供的针对实时数据场合下的流式计算模块SparkMLlib模块提供了常见的机器学习程序库,包括分类、回归、聚类、协同过滤等功能SparkGraphX模块则提供了图计算的API,能在海量数据上自如地运行复杂的图算法(像导航路径的选择就是使用图计算的例子,并不是日常生活中的图像处理)
Spark是什么Spark相比Hadoop具有较大优势,但它并不是用来取代Hadoop的(Spark主要用于替换Hadoop的MapReduce计算模型)。Spark不仅支持HDFS等分布式文件系统,在集群调度上还支持YARN、SparkStandalone等集群资源管理系统。Spark从诞生开始就已经很好地融入了Hadoop开源大数据生态圈,并成为其中不可或缺的重要一员。不过,Spark对机器的硬件要求相比Hadoop更高,主要是内存和CPU方面,只有这样才能发挥出它的优势Spark当前主要分为2.x和3.x两大系列版本,其中,3.x版本引入了一些新特性并在内部做了优化,考虑到2.x版本的发展时间较长且最为稳定,且3.x和2.x两者在一般的Spark应用程序开发上并无差别,所以这里将以Spark2.4.8为例进行讲解
Spark与大数据的应用场景Spark与Excel都是功能强大的数据处理工具,Excel是一个电子表格软件,简单易用,支持对各种数据的可视化展示,还支持VBA脚本编程,可以实现对数据的各种灵活处理和变换,但只能在单机上运行,处理的数据量有限,不适合大数据处理场合。Spark可以在数千台计算机的集群环境下运行,具有强大的数据处理能力,这一点是Excel这类软件无法比拟的Excel电子表格软件Spark大数据处理环境
Spark与大数据的应用场景Spark是大数据领域的分布式计算平台,国内外许多公司都在使用Spark帮助简化具有挑战性的密集型计算任务美团生活服务电子商务平台上的点击、浏览、下单支付行为等都会产生海量的日志,通过汇总、处理、分析、挖掘与学习,为美团业务的各种推荐、有哪些信誉好的足球投注网站系统甚至企业战略目标的制定提供客观的数据支撑阿里在有哪些信誉好的足球投注网站和广告业
您可能关注的文档
- Spark大数据分析与实战(Python+PySpark)课件 第2章 SparkRDD离线数据计算.pptx
- Spark大数据分析与实战(Python+PySpark)课件 第3章 SparkSQL离线数据处理.pptx
- Spark大数据分析与实战(Python+PySpark)课件 第4章 SparkStreaming流数据计算.pptx
- Spark大数据分析与实战(Python+PySpark)课件 第5章 Spark编程进阶.pptx
- Spark大数据分析与实战(Python+PySpark)课件 第6章 Spark大数据分析综合案例.pptx
- 2025年锗项目投资分析及可行性报告.docx
- 2025年中国变压器市场发展分析及未来投资潜力可行性报告.docx
- 组合逻辑全加器实验报告.docx
- 2025年猫爬架项目投资分析及可行性报告.docx
- 项目投资审计报告.docx
文档评论(0)