美团大数据及机器学习基础设施云原生改造实践.pdfVIP

美团大数据及机器学习基础设施云原生改造实践.pdf

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

美团⼤数据及机器学习集群云原⽣

改造实践

美团数据平台资源与系统负责⼈/吴通

⽬录

•早期架构及升级背景

•云原⽣改造过程

•关键问题和思考

•未来规划

改造前架构

场景特点

•⼤数据和机器学习两个⼤场景,先有⼤数据,后有机器学习

•⼤数据场景供需共构,对扩展性、可观测性等诉求不⾼,机器故障率

•机器学习场景供需异构,对调度语义、扩展性、可观测性、运维友好

均有⾼诉求,机器故障率⾼

改造前痛点

•扩展App类型复杂度⾼

•依赖AM,⽽⽤户⽆感知,影响资源统计

•⽀持GPU、RDMA、NPU等设备复杂度⾼

•调度策略定制成本⾼

•故障感知、监控、可观测⽔平低

更深层次的原因

•离线场景的路径依赖

•架构变更带来的不确定性

K8SVSYARN

•YARN:分布式集群资源调度系统

•K8S:分布式集群操作系统,管理集群资源的⽅⽅⾯⾯,不仅仅是调度

改造后架构

⽬录

•早期架构及升级背景

•云原⽣改造过程

•关键问题和思考

•未来规划

控制⾯改造内容概览

组件改造内容简介

etcd服务器和客户端均升级⾄3.5.5,提升性能并修复单节点revision落后较多的问题

kube-apiserver1.解决负载不均衡问题

2.httplog获取userAgent可能触发map并发读写问题

3.修复getwatch在apiserver_request_duration_seconds_bucket错误展示的问题

controller-1.改造EndpointController,以解决underlayCNI不⽀持ClusterIPservice问题

manager2.增强NodeLifecycleController处理NotReadyNode的能⼒,降低节点不可⽤对已有负载的影

Operator

1.SparkOperator:解决sparkonk8s,⽀持spark2.2和RSS

2.TrainingOperator:解决TF、MPI、PyTorchonK8S,⽀持容错

3.AFOServingOperator:以PaaS⽅式解决TF、PyTorch、Triton推理onK8S

4.OrdinaryServingOperator:以类IaaS⽅式管理在线服务

5.CodelabOperator:以容器⽅式给⼯程师提供开发实验环境

6.PrestoOperator:PrestoclusteronK8S,⽀持弹性容错

调度器⾃研调度器,⽀持各种⾼级特性,吞吐⽔平较⾼

节点端改造内容概览

组件改造内容简介

物理机调整挂盘⽅式,借助硬/软Raid解决kubelet不能管理多磁盘的问题

1.⽹卡、GPU亲和性⽀持到PCIE级别

2.⽀持多⽹卡Pod分配多IP

kubelet3.不同作业采⽤不同的oom处理策略

4.改造staticcpumanager,适配⽆预留cpu核⼼的绑核⽤法

5.修复⼀系列导致kubelet不稳定的问题,如device权限、terminatingpod、IP回收等问题

1.gpu-device-plugin⽀持按卡类型汇报资源名

device2.gpu-device-plugin、rdma-device-plugin⽀持

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档