- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
张义
目录0102Spark执行模型shuffle操作以及如何减少shuffle操作
Spark执行模型1
Spark执行模型Spark应用程序包含一个驱动程序进程和一组在各种集群节点上运行的执行器进程。驱动程序管理工作流程,执行器通过多个任务执行工作。在YARN Spark设置中,ResourceManager决定任务可以在哪些节点上运行。
Spark执行模型Spark应用程序Spark应用程序由RDD操作(转换和动作)组成。RDD是所有Spark编程的核心。DataFrame是RDD的核心抽象,其有助于将数据转换成单个对象,从而掩盖它分布在大量机器上的事实。启动Spark应用程序时,会创建一个Spark作业来执行此工作。Spark首先根据动作使用的RDD创建一个执行计划。
Spark执行模型作业应用程序通过启动一个或一组作业来获取结果。一个作业涉及Spark执行的一组计算,以将RDD上的动作结果返回到启动应用程序的驱动程序。应用程序通过调用RDD的action方法启动作业。当调用action方法时,作业启动。例如检索缓存的RDD数据或从存储器读取数据时作业启动。然后Spark应用必要的转换来创建action方法所需的RDD。它还执行该动作需要的任何计算。一旦完成所有的转换和计算,并将结果传递给了驱动程序,则作业完成。
Spark执行模型Spark 执行术语■任务:在单个节点上运行的执行单元,每个执行器都有一个或多个任务。■阶段:一组任务,基于输入数据的分区,它们对数据块并行执行相同的计算■作业:与应用程序相同,可能有一个或多个阶段。■管道;当RDD转换可以在不移动数据的情况下执行时,将RDD压缩成单个阶段。■有向无环图(DAG):RDD操作的逻辑图。■弹性分布式数据集(RDD):并行只读数据集(包含一个或多个分区)。
Spark执行模型执行计划执行计划源自于和缓存数据有关的RDD或者不依赖于缓存数据的RDD,执行计划的目标是得到最终结果的RDD。阶段执行计划将作业的转换纳入不同的阶段。作业的每个阶段包括一组类似编码的任务,每个任务在数据子集上工作。这里的关键在于,每个阶段的转换都可以完成,而不会shuffle所有的数据。
Spark执行模型shuffle是在集群节点之间重新分配数据的昂贵操作。每个数据块都成为RDD的一个分区。跨节点的数据分布不是随机的,而是基于具体的标准。作业由几个阶段组成,每个阶段由一个或一组任务组成。一个作业被分成DAG阶段。Spark组任务进入阶段的方式是使用shuffle边界。在不执行shuffle的情况下把可以执行的一组任务放在同一个阶段。如果随后的任务需要将数据进行shuffle,则标志着不同阶段的开始。任务任务是做实际工作的实体。Spark将任务提交给执行器。集群节点上的任务调度与数据本地化有很大关系。
shuffle操作以及如何减少shuffle操作2
shuffle操作以及如何减少shuffle操作shuffle操作是Spark重新分配数据的操作,因此它在所有分区中的分组不同。我们来看一下reduceByKey操作,当对(K,V)对的数据集进行调用时,返回一个数据集(K,V)对,每个键的值都使用给定的reduce函数func进行聚合。
shuffle操作以及如何减少shuffle操作reduceByKey操作生成一个新的RDD,其中包含组合在元组中的单个键的所有值。为了计算这个单键,键的所有值必须位于同一分区上。因此,为了执行reduceByKey的reduce任务,Spark执行所谓的all - to - all操作,它从所有分区读取并检索所有键的所有值,并将它们放在单个分区中,以便它可以计算每个键的结果。这就是shuffle操作。reduceByKey和groupByKey操作以及连接操作(如cogroup和join)都会导致shuffle操作。此外,重新分配和合并也会引发shuffle操作。
您可能关注的文档
最近下载
- 北京市第四中学2024-2025学年高二上学期期中考试化学试卷(含答案).docx VIP
- 电动自行车用锂离子电池和电池组 技术规范.docx VIP
- 胃肠疾病的超声诊断答案-2025年度华医网继续教育.docx VIP
- 英文电影赏析(共46张精品课件).ppt VIP
- 人工智能在医疗行业的应用PPT .pptx
- 小学道德与法治五年级上册第四单元《骄人祖先-灿烂文化》整体教学设计.docx
- 坏死性筋膜炎.ppt
- 网络操作系统(Windows Server 2008)课件(共13单元)项目8、配置DNS服务器.ppt VIP
- 10S505柔性接口给水管道支墩图集.docx
- 一种用随机点尿来评估高血压患者每日食盐量的方法.pdf VIP
文档评论(0)