- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SparkShuffle解析
;ShuffleMapStage与ResultStage;/01;ShuffleMapStage与ResultStage;/02; Spark Shuffle分为map阶段和reduce阶段,或者称之为ShuffleRead阶段和ShuffleWrite阶段,那么对于一次Shuffle,map过程和reduce过程都会由若干个task来执行,那么map task和reduce task的数量是如何确定的呢?
假设Spark任务从HDFS中读取数据,那么初始RDD分区个数由该文件的split个数决定,也就是一个split对应生成的RDD的一个partition,我们假设初始partition个数为N。; 初始RDD经过一系列算子计算后(假设没有执行repartition和coalesce算子进行重分区,则分区个数不变,仍为N,如果经过重分区算子,那么分区个数变为M),我们假设分区个数不变,当执行到Shuffle操作时,map端的task个数和partition个数一致,即map task为N个。
Reduce端的stage默认取spark.default.parallelism这个配置项的值作为分区数,如果没有配置,则以map端的最后一个RDD的分区数作为其分区数(也就是N),那么分区数就决定了reduce端的task的个数。;/03; 根据stage的划分我们知道,map端task和reduce端task不在相同的stage中,map task位于ShuffleMapStage,reduce task位于ResultStage,map task会先执行,那么后执行的reduce task如何知道从哪里去拉取map task落盘后的数据呢?
;reduce端的数据拉取过程如下:
map task 执行完毕后会将计算状态以及磁盘小文件位置等信息封装到MapStatus对象中,然后由本进程中的MapOutPutTrackerWorker对象将mapStatus对象发送给Driver进程的MapOutPutTrackerMaster对象;
在reduce task开始执行之前会先让本进程中的MapOutputTrackerWorker向Driver进程中的MapoutPutTrakcerMaster发动请求,请求磁盘小文件位置信息;
; 当所有的Map task执行完毕后,Driver进程中的MapOutPutTrackerMaster就掌握了所有的磁盘小文件的位置信息。
此时MapOutPutTrackerMaster会告诉MapOutPutTrackerWorker磁盘小文件的位置信息;
完成之前的操作之后,由BlockTransforService去Executor0所在的节点拉数据,默认会启动五个子线程。每次拉取的数据量不能超过48M(reduce task每次最多拉取48M数据,将拉来的数据存储到Executor内存的20%内存中)。
;1. ShuffleMapStage与ResultStage2. Shuffle中的任务个数3. reduce端数据的读取
您可能关注的文档
- 二零二三年 优质公开课SOLOMO模式.pptx
- 二零二三年 优质公开课SONG‘SCLUB后现代.pptx
- Sonopuls190移动式超声治疗仪.pptx
- 二零二三年 优质公开课Sonopuls固定式超声0815.pptx
- 二零二三年 优质公开课sortBy函数解析.pptx
- SortedMap接口和TreeMap实现类.pptx
- 二零二三年 优质公开课SortShuffle解析.pptx
- 二零二三年 优质公开课Sort排序详解.pptx
- SoundDream梦之声主题KTV后现代.pptx
- 二零二三年 优质公开课SparkMllib介绍.pptx
- 2022-2023学年上海市嘉定区第一中学高二下学期期中考试数学试卷含详解.pdf
- 2023-24年安徽省定远县公开招考33名社区工作者高频考题难、易错点模拟试题(共200题)附带答案完整版(夺冠系列).docx
- 2023-24年安徽省定远县社区工作者招聘10人历年高频考题难、易错点模拟试题(共200题)附带答案完整版带答案(综合卷).docx
- 2023-24年安徽省定远县招考聘用社区工作者重点基础提升难、易点模拟试题(共200题)题库大全带下载答案.docx
- 2022-2023学年上海市上海交通大学附属中学高三上学期期中考物理试卷含详.pdf
- 2022-2023学年上学期人教版初中八年级上学期物理期末备考---光现象.pdf
- 2022-2023学年上海市嘉定区第一中学高二上学期12月月考物理试卷含答案.pdf
- 2023-24年安徽省东至县社区工作者经典备考题库(必背200题)题库及答案(基础+提升).docx
- 2023-24年安徽省东至县公开招考33名社区工作者高频考题难、易错点模拟试题(共200题)附带答案题库【有一套】.docx
- 2022-2023学年北京市昌平区八年级(下)期中物理试卷(含解析) .pdf
文档评论(0)