- 1、本文档共33页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大规模服务器集群的
线上质量运营实践
陈海超
字节跳动
陈海超
服务器运营质量工程师
目前,专注于字节跳动的服务器线上质量建设与保障
多年服务器研发测试、技术支持与海量运营工作经验,曾任职华为、腾讯。负责解决过国
内外互联网、运营商、金融等领域的服务器疑难问题;制定服务器集群的硬件监控标准与
运营流程;主导CPU\网卡\硬盘\GPU等关键部件质量提升;深度参与A100/A800/H800
等大模型训练集群的质量重保。
曾任TCCP讲师(服务器运维高级工程师课程)、获VMWare、Window、PMP等认证。
请替换
您的照片
GOPS全球运维大会暨XOps技术创新峰会2024·北京站
线上质量的重要性
目录线上质量体系的建立
线上质量的运营实践
展望
GOPS全球运维大会暨XOps技术创新峰会2024·北京站
01线上质量的重要性
GOPS全球运维大会暨XOps技术创新峰会2024·北京站
服务器集群规模的快速增长
近十余年,随着互联网、云计算的蓬勃发展,全球陆续出现服务器保有量过100W+台的大规模集群
全球首家100W台全球第5,国内首家100W台
大规模服务器集群的运营模式演进
DevOpsAIOps
不依赖人硬盘固件
数十万台
自动化运维
平台运维数万台
工具化运维
全人工运维数千台
依赖人
大规模服务器集群运营的质量挑战
随着服务器集群规模飞速扩张,机器型号层出不穷、硬件平台持续迭代、芯片集中度快速提升、业务
应用场景多样化,稍有不慎,就会导致质量问题频繁发生,影响业务稳定性。
业务侧感受有:
软件无法运行、部件故障率高、频繁宕机、性能不达标等
线上质量问题的发现来源
交付厂商
拦截反馈
故障问题研发
您可能关注的文档
- 王国梁-必威体育精装版终稿脱敏-告别运维负担:腾讯云对 Prometheus Serverless 化的实践-腾讯-脱敏.pdf
- 赵舜东-终稿脱敏-基于开源工具的运维可观测性建设实践-赵班长.pdf
- 李威-脱敏-高效与安全并重:AI软件供应链管理策略与最佳实践 final @JFrog.pdf
- 张静-新版脱敏稿-让运维更智能:大模型时代下京东科技 AIOps 之路.pdf
- 谢荣良-终稿脱敏-工行 IT 架构资产与元数据管理体系建设揭秘.pdf
- 4,王晓翔-终稿脱敏-别让平台工程成为面子工程20240627 .pdf
- 韩洪雷-终稿脱敏DevOps工具平台的“诗和远方”.pdf
- 脱敏_顾铮-从 DevOps 到平台工程,让工具更好的为业务服务.pdf
- 隋吉智-终稿脱敏-大规模、多云主机统一可观测实践.pdf
- 吴晟 -终稿脱敏SkyWalking 原生数据库发布与云原生下复杂部署关系的识别 .pdf
文档评论(0)