网站大量收购闲置独家精品文档,联系QQ:2885784924

深入浅出spark资料.pptx

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深入浅出spark资料

深入浅出Spark;目录;;Spark的发展历程;Spark特点;Spark整体架构;目录;Spark组件 Driver Program (驱动程序) 是Spark 的核心组件 构建SparkContext(Spark应用的入口,它负责和整个集群的交互,创建需要的变量,还包含集群的配置信息等) 将用户提交的job转换为DAG图(类似数据处理的流程图) 根据策略将DAG图划分为多个stage,根据分区从而生成一系列tasks 根据tasks要求向资源管理器申请资源 提交任务并检测任务状态 Executor 真正执行task的单元,一个Worker Node上可以有多个Executor;Spark端到端流程;Driver运行在Client;Spark on YARN;目录;核心模块;核心模块——RDD整体介绍;作用于RDD上的Operation分为转换(transformantion)和动作(action)。 Spark中的所有“转换”都是惰性的,在执行“转换”操作,并不会提交Job,只有在执行“动作”操作,所有operation才会被提交到cluster中真正的被执行。这样可以大大提升系统的性能。;核心模块??—RDD持久化;核心模块——RDD依赖关系;核心模块——RDD依赖关系;核心模块——RDD容错机制;核心模块——Scheduler整体介绍;核心模块——Scheduler之DAGScheduler;核心模块——Scheduler之TaskScheduler;核心模块——TaskScheduler之SchedulableBuilder;核心模块——TaskScheduler之TaskSetManager;核心模块——TaskScheduler之SchedulerBackend;核心模块——TaskScheduler之TaskSchedulerImpl;核心模块——TaskScheduler;核心模块——Storage;核心模块——Storage;核心模块——Shuffle;目录;应用库——整体介绍;应用库——Spark SQL;应用库——Spark Streaming; ;应用库——MLlib和GraphX ;目录; spark是对MapReduce计算模型的改进,可以说没有HDFS,MapReduce,就没有spark.;Hadoop;;目录;Spark应用场景;Spark在互联网界的使用 ;Spark在移动网优测试结果 ;Spark在移动网优测试结果分析 ;总结;谢谢!;附录——Spark与Hadoop的区别(1);附录—— Spark与Hadoop的区别(2)

文档评论(0)

过各自的生活 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档