陈海超_脱敏稿-大规模服务器集群的线上质量运营实践.pdf

陈海超_脱敏稿-大规模服务器集群的线上质量运营实践.pdf

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大规模服务器集群的

线上质量运营实践

陈海超

字节跳动

陈海超

服务器运营质量工程师

目前,专注于字节跳动的服务器线上质量建设与保障

多年服务器研发测试、技术支持与海量运营工作经验,曾任职华为、腾讯。负责解决过国

内外互联网、运营商、金融等领域的服务器疑难问题;制定服务器集群的硬件监控标准与

运营流程;主导CPU\网卡\硬盘\GPU等关键部件质量提升;深度参与A100/A800/H800

等大模型训练集群的质量重保。

曾任TCCP讲师(服务器运维高级工程师课程)、获VMWare、Window、PMP等认证。

请替换

您的照片

GOPS全球运维大会暨XOps技术创新峰会2024·北京站

线上质量的重要性

目录线上质量体系的建立

线上质量的运营实践

展望

GOPS全球运维大会暨XOps技术创新峰会2024·北京站

01线上质量的重要性

GOPS全球运维大会暨XOps技术创新峰会2024·北京站

服务器集群规模的快速增长

近十余年,随着互联网、云计算的蓬勃发展,全球陆续出现服务器保有量过100W+台的大规模集群

全球首家100W台全球第5,国内首家100W台

大规模服务器集群的运营模式演进

DevOpsAIOps

不依赖人硬盘固件

数十万台

自动化运维

平台运维数万台

工具化运维

全人工运维数千台

依赖人

大规模服务器集群运营的质量挑战

随着服务器集群规模飞速扩张,机器型号层出不穷、硬件平台持续迭代、芯片集中度快速提升、业务

应用场景多样化,稍有不慎,就会导致质量问题频繁发生,影响业务稳定性。

业务侧感受有:

软件无法运行、部件故障率高、频繁宕机、性能不达标等

线上质量问题的发现来源

交付厂商

拦截反馈

故障问题研发

文档评论(0)

150****8957 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档