基于Spark-on-Yarn的淘 宝数据挖掘平台.pptxVIP

基于Spark-on-Yarn的淘 宝数据挖掘平台.pptx

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Spark-on-Yarn的淘 宝数据挖掘平台

插上翅膀的大象 基于Spark on Yarn的淘宝数据挖掘平台 目录 为什么选择Spark On Yarn Spark On Yarn的原理和框架 淘宝在Spark On Yarn上做的工作 基于Spark on Yarn的数据挖掘平台架构 • 案例性能 Hadoop在数据挖掘遇到的问题 • 多次迭代 • 中间数据的序列化和反序列化 • 简单的MR模式 vs 复杂的机器学习算法 OO编程 vs 函数式风格 • 图计算能力 Why Spark RDD – 内存计算 – 快速迭代 DAG Scala FP编程 Actor模型 – 并发能力 Hadoop MapReduce HDFS访问 Spark的生态圈 Yarn Standalone HDFS Local Spark (MapReduce) Shark (Hive) Graphx (GraphLab) Streaming (Storm) Mesos Mllib (Mahout) HBASE 淘宝的Spark之路 2013.08 Spark 0.8 (Yarn) 200台Yarn集群 2012中 Spark 0.6(Standalone) 10台小集群 2012初 阿里云梯1目前规模: 5000*2 Yarn版本: 0.23.7 Spark 0.5(Mesos) Just for Lab Spark on Yarn的框架 Container (ExecutorBackend) Executor Container (ExecutorBackend) Executor Node Manager 3.启动Container Application Master SparkContext DAG Scheduler YarnClusterScheduler Node Manager 3.启动AppMaster Resource Manager Spark Yarn Client 5.申请Container 6.分配Container 2.分配AppMaster 1.提交请求 调度过程 RDD Objects DAG Build operator DAG DAGScheduler Stage TaskSet split graph into stages of tasks submit each stage as ready TaskScheduler launch tasks via cluster manager retry failed or straggling tasks Worker execute tasks store and serve blocks Block manager Executor Task Introduction to Spark Internals @Matei Cluster Manager 我们的社区跟进模式 压力测试 修复Bug Spark Repository 内部Gitlab Spark Repository Github 测试服务器 通过 Big Jobs 生产服务器 提交Pull Request 发布生产服务器 内部Merge Weekly Merge Folk 是否对 社区有 价值? 我们做了什么?  公开的 Pull Request 681: Remove acOve job from idToAcOveJob when job finished or aborted Pull Request 689: Jobs are always marked as SUCCEEDED even its actually failed on Yarn Pull Request 757: ResultTasks serializaOon forget about handling generaOon field, while ShuffleMapTask does  未公开的(和云梯Yarn团队密切相关) 1. 增加用户权限管理 2. 工作jar包缓存机制 3. 自动配置Spark临时缓存目录 4. 封装了一个运行脚本,使用资源文件配置Spark作业性能参数 5. 添加一个Syslog来存放完整日志输出 6. Executor监控页面增加跳转到日志的链接 …… 封装的启动命令 spark_on_yarn \ -­‐-­‐queue cug-­‐queue-­‐spark \ -­‐-­‐jar /home/spark/mllib/libs/spark-­‐mllib_2.9.3-­‐0.7.0-­‐SNAPSHOT.jar \ -­‐-­‐class spark.mllib.recommendaOon.ALS \ -­‐-­‐args ya

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档