- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
Spark运行架构与原理
Spark集群运行架构
Spark运行基本流程
基本概念
基本概念
应
基本概念
Spark运行架构包括集群资源管理器(ClusterManager)、运行作业任务的工作节点
(WorkerNode)、每个应用的任务控制节点(Driver)和每个工作节点上负责具体任务的执行
进程(Executor)。其中,集群资源管理器可以是Spark自带的资源管理器,也可以是YARN或
Mesos等资源管理框架。
与HadoopMapReduce计算框架相比,Spark所采用的Executor有两个优点:一是利用多线程来执行具体的任务(HadoopMapReduce采用的是进程模型),减少任务的启动开销;二是
Executor中有一个BlockManager存储模块,会将内存和磁盘共同作为存储设备,当需要多轮迭代计算时,可以将中间结果存储到这个存储模块里,下次需要时,就可以直接读该存储模块里的数据,而不需要读写到HDFS等文件系统里,因而有效减少了IO开销;或者在交互式查询场景下,预先将表缓存到该存储系统上,从而可以提高读写IO性能。
Standalone模式部署
Application
用户编写的Spark应用程序,包含了DriverProgram以及在集群上运行的程序代码,物理机器上涉及了driver,master,worker三个节点。
Driver
Spark中的Driver即运行Application的main函数并创建SparkContext,创建
SparkContext的目的是为了准备Spark应用程序的运行环境,在Spark中由SparkContext负责与ClusterManager通信,进行资源申请、任务的分配和监控等,当Executor部分运行完毕后,Driver同时负责将SparkContext关闭。
Standalone模式部署
Worker
集群中任何一个可以运行spark应用代码的节点。Worker就是物理节点,可以在上面启动Executor进程。
Executor
在每个Worker上为某应用启动的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上,每个任务都有各自独立的Executor。Executor是一个执行Task的容器。
RDD
RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。
Standalone模式部署
Task
被送到某个Executor上的工作单元,但hadoopMR中的MapTask和ReduceTask概念一样,是运行
Application的基本单位,多个Task组成一个Stage,而Task的调度和管理等是由TaskScheduler负责。
Job
包含多个Task组成的并行计算,往往由SparkAction触发生成,一个Application中往往会产
生多个Job。
Stage
每个Job会被拆分成多组Task,作为一个TaskSet,其名称为Stage,Stage的划分和调度是
有DAGScheduler来负责的,Stage有非最终的Stage(ShuffleMapStage)和最终的
Stage(ResultStage)两种,Stage的边界就是发生shuffle的地方。
Spark集群运行架构
ô
Spark集群运行架构
Spark是基于内存计算的大数据并行计算框架,比MapReduce计算框架具有更高的实时性,同时具有高效容错性和可伸缩性,在学习Spark操作之前,首先介绍Sprk运行架构。
WorkerNode
Executor
Cache
DriverProgram
Task
Task
SparkContext
ClusterManager
WorkerNode
Executor
Task
Cache
Task
Spark运行基本流程
ô
Spark运行基本流程
Spark运行架构主要由SparkContext、ClusterManagaer和
您可能关注的文档
- 《汽车节能与新能源技术应用》高职PPT完整全套教学课件.pptx
- 《嵌入式系统原理与开发》课件_第5章.pptx
- 《数据挖掘与机器学习》 课件 项目二 农产品信息可视化分析——NumPy、pandas 与 Matplotlib 库.pptx
- 《数据挖掘与机器学习》 课件 项目七 新闻文本分析——聚类.pptx
- 《数据挖掘与机器学习》 课件 项目三 建筑工程混凝土抗压强度检测——线性回归.pptx
- 《数据挖掘与机器学习》 课件 项目四 电商平台运输行为预测——逻辑回归.pptx
- 《数据挖掘与机器学习》 课件 项目五 加工厂玻璃类别识别——决策树、随机森林.pptx
- 《数据挖掘与机器学习》 课件 项目一 搭建数据挖掘与机器学习编程环境.pptx
- 《数据挖掘与机器学习》 课件2.2.2 pandas数据结构.pptx
- 《数据挖掘与机器学习》 课件2.2.3 数据清洗.pptx
- 市直机关工委及个人述职述廉2024年党建工作情况报告材料.docx
- 区委书记在2025年一季度经济运行部署会议上的讲话发言材料.docx
- 市直机关单位、卫健委党支部2024年工作述职报告材料.docx
- 市委副书记、市长在2025年市委城乡规划委员会第一次会议上的讲话发言材料.docx
- 某单位领导干部2024年生活会、组织生活会对照检查材料(对照“四个带头”).docx
- 2024年民政局、宣传部、教育局基层主要领导个人述责述廉报告材料.docx
- 2025年2月党支部“三会一课”参考主题方案.docx
- 在某中学2025年春季开学典礼上的讲话:以“三重境界”燃动新学期.docx
- 2024年度领导干部专题民主生活会、组织生活会对照检查材料(四个带头)及学习研讨会上的发言材料.docx
- 市纪委市监委2025年度纪检监察工作计划.docx
最近下载
- 少先队大队委竞选ppt模板小学生自我介绍班委竞选卡通班干部课件 (10).pptx VIP
- 高等数学_大一_上学期知识要点.doc
- 集输初级工理论及技能操作试题(新)讲义.docx
- 2023综合安防平台(服务器)DS-VM21S-B系列配置指南.docx
- 2022年考博英语-华东政法大学考前拔高综合测试题2(含答案带详解)(含答案带详解).docx VIP
- 射击俱乐部商业计划书.pptx VIP
- 教师资格证初中英语简答题汇总.docx
- 中山大学2022-2023学年第1学期《高等数学(上)》期末考试试卷(A卷)附参考答案.pdf
- 高支模方案(专家论证).doc
- 数学符号及读法大全.doc VIP
文档评论(0)