- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark生态介绍
1.掌握Spark是什么2.掌握Spark生态架构
1. Spark是什么2. Spark生态架构
Spark是什么Apache Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的计算引擎Apache Spark是主要用于大规模数据处理的快速的通用的计算引擎
Spark是什么Spark拥有Hadoop MapReduce所具有的优点:但不同于MapReduce 的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖据与机器学习等需要迭代的MapRedduce的算法。
Spark生态架构在Spark的生态圈中,有各种各样的组件,主要用于进行批处理以及流式处理等,Spark技术栈几乎可以解决所有大数据处理场景
Spark生态架构Spark 的主要部件:SPARK CORE:包含spark的主要基本功能Spark SQL: Spark 中用于结构化数据处理的软件包Spark Streaming:Spark 中用来处理流数据的部件 MLlib:Spark 中用来进行机器学习和数学建模的软件包 GraphX:Spark 中用来进行图计算(如社交媒体关系) 的库函数 Cluster Managers:Spark 中用来管理机群或节点的软件平台
Spark生态架构SPARK CORE:负责从HDFS、Amazon S3和HBase等持久层读取数据SPARK CORE 就是 SPARK 功能调度中心,其中包括任务调动, 内存管理,容错管理及存储管理。同时也是一些列应用程序的集中地。
1. SparkSQL --进行交互式查询2. SparkStreaming --进行流式处理3. GraphX --进行图计算4. MLlib --进行训练机器学习算法模型
文档评论(0)