- 1、本文档共54页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
美团⼤数据及机器学习集群云原⽣
改造实践
美团数据平台资源与系统负责⼈/吴通
⽬录
•早期架构及升级背景
•云原⽣改造过程
•关键问题和思考
•未来规划
改造前架构
场景特点
•⼤数据和机器学习两个⼤场景,先有⼤数据,后有机器学习
•⼤数据场景供需共构,对扩展性、可观测性等诉求不⾼,机器故障率
低
•机器学习场景供需异构,对调度语义、扩展性、可观测性、运维友好
均有⾼诉求,机器故障率⾼
改造前痛点
•扩展App类型复杂度⾼
•依赖AM,⽽⽤户⽆感知,影响资源统计
•⽀持GPU、RDMA、NPU等设备复杂度⾼
•调度策略定制成本⾼
•故障感知、监控、可观测⽔平低
更深层次的原因
•离线场景的路径依赖
•架构变更带来的不确定性
K8SVSYARN
•YARN:分布式集群资源调度系统
•K8S:分布式集群操作系统,管理集群资源的⽅⽅⾯⾯,不仅仅是调度
改造后架构
⽬录
•早期架构及升级背景
•云原⽣改造过程
•关键问题和思考
•未来规划
控制⾯改造内容概览
组件改造内容简介
etcd服务器和客户端均升级⾄3.5.5,提升性能并修复单节点revision落后较多的问题
kube-apiserver1.解决负载不均衡问题
2.httplog获取userAgent可能触发map并发读写问题
3.修复getwatch在apiserver_request_duration_seconds_bucket错误展示的问题
controller-1.改造EndpointController,以解决underlayCNI不⽀持ClusterIPservice问题
manager2.增强NodeLifecycleController处理NotReadyNode的能⼒,降低节点不可⽤对已有负载的影
响
Operator
1.SparkOperator:解决sparkonk8s,⽀持spark2.2和RSS
2.TrainingOperator:解决TF、MPI、PyTorchonK8S,⽀持容错
3.AFOServingOperator:以PaaS⽅式解决TF、PyTorch、Triton推理onK8S
4.OrdinaryServingOperator:以类IaaS⽅式管理在线服务
5.CodelabOperator:以容器⽅式给⼯程师提供开发实验环境
6.PrestoOperator:PrestoclusteronK8S,⽀持弹性容错
调度器⾃研调度器,⽀持各种⾼级特性,吞吐⽔平较⾼
节点端改造内容概览
组件改造内容简介
物理机调整挂盘⽅式,借助硬/软Raid解决kubelet不能管理多磁盘的问题
1.⽹卡、GPU亲和性⽀持到PCIE级别
2.⽀持多⽹卡Pod分配多IP
kubelet3.不同作业采⽤不同的oom处理策略
4.改造staticcpumanager,适配⽆预留cpu核⼼的绑核⽤法
5.修复⼀系列导致kubelet不稳定的问题,如device权限、terminatingpod、IP回收等问题
1.gpu-device-plugin⽀持按卡类型汇报资源名
device2.gpu-device-plugin、rdma-device-plugin⽀持
您可能关注的文档
- 蚂蚁金服数据成本治理实践 (1).pdf
- 分布式应用运行时的落地实践.pdf
- 基于知识助手的金融大模型应用实践.pdf
- 美团 Blade 自研分布式数据库 NewSQL 演进之路.pdf
- 基于 LowCodeEngine 的阿里低代码组件体系的建设和实践.pdf
- SmartEV 和 AI,蔚来的思考与实践.pdf
- 北京银行人工智能应用平台建设与实践.pdf
- 大模型在金融知识和作业密集型场景的挑战和实践.pdf
- 腾讯在云原生可观测领域的探索与实践.pdf
- 在快手架构师团队如何持续创造价值.pdf
- 第18讲 第17课 西晋的短暂统一和北方各族的内迁.docx
- 第15讲 第14课 沟通中外文明的“丝绸之路”.docx
- 第13课时 中东 欧洲西部.doc
- 第17讲 第16 课三国鼎立.docx
- 第17讲 第16课 三国鼎立 带解析.docx
- 2024_2025年新教材高中历史课时检测9近代西方的法律与教化含解析新人教版选择性必修1.doc
- 2024_2025学年高二数学下学期期末备考试卷文含解析.docx
- 山西版2024高考政治一轮复习第二单元生产劳动与经营第5课时企业与劳动者教案.docx
- 第16讲 第15课 两汉的科技和文化 带解析.docx
- 第13课 宋元时期的科技与中外交通.docx
最近下载
- 建筑工地扬尘污染防治工作总结.pptx
- 民法与生活(暨南大学)中国大学MOOC(慕课)章节测验试题(答案).pdf
- 第九版生理学第十章 神经系统的功能(第1~3节).pptx VIP
- 正泰(CHINT)NVF2变频器说明书使用手册.doc
- 人教版一年级数学上册一单元试卷附答案(四套).pdf
- 五年级上册实际问题与方程分类总结03705省名师优质课赛课获奖课件市赛课一等奖课件.pptx
- 一般现在时知识点及练习仁爱版英语七年级上册.docx
- DG∕TJ 08-2216-2016 城镇污水处理厂污泥厌氧消化技术规程.pdf
- 国家中小学智慧教育平台培训专题讲座.pptx VIP
- 五年级中国民间故事必读书目阅读试题及答案.doc
文档评论(0)