二零二三年优质公开课Spark生态介绍.pptx

下载文档

0
0
约小于1千字
约 10页
2023-06-01 发布于安徽
举报
版权申诉
保障服务

二零二三年优质公开课Spark生态介绍.pptx

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Spark生态介绍 1.掌握Spark是什么2.掌握Spark生态架构 1. Spark是什么2. Spark生态架构 Spark是什么Apache Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的计算引擎Apache Spark是主要用于大规模数据处理的快速的通用的计算引擎 Spark是什么Spark拥有Hadoop MapReduce所具有的优点：但不同于MapReduce 的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖据与机器学习等需要迭代的MapRedduce的算法。 Spark生态架构在Spark的生态圈中，有各种各样的组件，主要用于进行批处理以及流式处理等，Spark技术栈几乎可以解决所有大数据处理场景 Spark生态架构Spark 的主要部件:SPARK CORE:包含spark的主要基本功能Spark SQL: Spark 中用于结构化数据处理的软件包Spark Streaming:Spark 中用来处理流数据的部件 MLlib:Spark 中用来进行机器学习和数学建模的软件包 GraphX:Spark 中用来进行图计算(如社交媒体关系) 的库函数 Cluster Managers:Spark 中用来管理机群或节点的软件平台 Spark生态架构SPARK CORE:负责从HDFS、Amazon S3和HBase等持久层读取数据SPARK CORE 就是 SPARK 功能调度中心，其中包括任务调动，内存管理，容错管理及存储管理。同时也是一些列应用程序的集中地。 1. SparkSQL --进行交互式查询2. SparkStreaming --进行流式处理3. GraphX --进行图计算4. MLlib --进行训练机器学习算法模型

您可能关注的文档

文档评论（0）

中小学K12教育 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

二零二三年优质公开课Spark生态介绍.pptx