- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
spark源码性能优化案例分析
Spark源码性能优化
案例分析
李智慧
性能调优的基础
• 你不能优化一个你不了解的系统
• 你不能优化一个你不能测试的系统
Web应用服务器性能测试曲线
来源 《大型网站技术架构:核心原理与案例分析》
性能调优的步骤
1. 性能测试,观察系统性能特性
2. 资源(CPU、Memory、Disk、Net )利用
分析,寻找资源瓶颈 ,提高资源利用
3. 系统架构、代码分析,发现资源利用关键所
在
4. 代码、架构、基础设施调优,优化、平衡资
源利用
5. 性能测试,观察系统性能特性
HDFS集群部署架构
Spark集群部署架构
Spark性能测试工具
• Spark性能测试基准程序Benchmark
– /intel-hadoop/HiBench
• Spark性能测试与分析可视化工具
– /zhihuili/Dew
Spark性能测试
Spark作业调度的几
个概念:
Job ,Stage ,Task
1 Spark任务文件初始化调优
资源分析,发现第一个stage时间特别长,耗时长达14s ,
CPU和网络通信都有一定开销,不符合应用代码逻辑。
• 打开Spark作业log ,分析这段时间的Spark运
行状况。
• 根据log分析结果,阅读Spark相关源码。
• 发现Spark在任务初始化加载应用代码的时候,
每个Executor都加载一次应用代码,当时每台
服务器最多可启动48个Executor ,每个应用
代码包17M大小,导致加载开销巨大。
• 优化方案:Executor加载应用程序包启用
本地文件缓存模式。[SPARK-2713]
• 优化效果:Stage1运行时间从14s下降到不
到1s。
2 Spark任务调度优化
• 资源分析,发现stage2只有一台服务器上
的CPU被使用,其他服务器CPU完全空闲。
• 打开Spark作业log ,分析这段时间的Spark运行状
况。
• 根据log分析结果,阅读Spark相关源码。
• 通过源码发现,Spark Driver在任务分配的时候 ,
仅针对当前已经向Driver注册过的Executor进行任
务分配,而Executor的注册是有先后的,如果第一
个job 的任务数比较少,就会出现第一个Worker的
Executor注册的时候将所有任务领走的情况。
• 优化方案:增加两个配置项,当注册Executor达到一定比例时,才开始任务
分配。[SPARK-1946][SPARK-2635]
– spark.scheduler.minRegisteredResourcesRatio
– spark.scheduler.maxRegisteredResourcesWaitingTime
• 优化效果:stage2运行时间缩短,性能提升1.32倍
3 任务分配算法调优
• 在做log分析的时候,发现在Executor领取任
务的时候,在最后总会有一两个Executor领取
的任务是非local的。比如,最后两个任务
A[2,3,1]和B[1,3,4] ,Executor[1][2] ,当
Executor[1]领取了任务A ,则Executor[2]领
到的任务B就是非local的。
• 解决方案:对任务进行偏序排序后再分配
[SPARK-2193]
4 OS配置调优
• 资源分析,发现服务器大量CPU资源消耗为sys类型
• 调查发现,是因为某些Linux版本的transparent huge page默
认为enable状态导致
• 优化方案:关闭OS的transparent huge pages
– Echo never /sys/kernel/mm/transparent_hugepage/enabled
– Echo never /sy
您可能关注的文档
最近下载
- 胰岛素抵抗和代谢综合征课件.pptx VIP
- 胰岛素抵抗和代谢综合征.ppt VIP
- GB/T 17747.1-2011_天然气压缩因子的计算 第1部分:导论和指南.pdf
- 《基础护理学》第7章 休息与活动(含答案).docx
- 城市中心区综合性公园使用现状调查研究————以成都市人民公园为例.docx
- 产品档案管理制度及流程.pdf
- 中华民族一家亲,同心共筑中国梦.pptx VIP
- “社工+志愿者”联动模式的思考及对策研究--以惠州市河背社区志愿者项目为例.docx
- 国家开放大学,地域文化,人文武隆形考一 (3).pptx VIP
- (黑龙江省)新课标高中信息技术会考试题 学科整合 试题及答案..doc VIP
文档评论(0)