隋吉智-终稿脱敏-大规模、多云主机统一可观测实践.pdf

隋吉智-终稿脱敏-大规模、多云主机统一可观测实践.pdf

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

迈向更高层次智能化的

生成式软件开发

隋吉智(左知)

阿里云基础设施事业部可观测研发工程师

隋吉智(左知)

阿里云基础设施事业部可观测研发工程师

公司职位

就职于阿里云基础设施事业部可观测团队,在可观测领域尤其指标场景有较丰

富经验,针对大规模集群指标采集和处理有较多生产实践积累,采集探针性能

调优和稳定性建设经验丰富。

在可观测领域的主机可观测场景,有较多探索和实践落地经验。

GOPS全球运维大会暨XOps技术创新峰会2024·北京站

主机统一可观测面临的挑战

目录主机统一可观测现状分析

主机可观测阿里云技术实践

主机统一可观测实践收益

GOPS全球运维大会暨XOps技术创新峰会2024·北京站

01主机统一可观测面临的挑战

GOPS全球运维大会暨XOps技术创新峰会2024·北京站

挑战与难点一

自动化发现与安装基础监控与应用监控

主机的及时准确自动化服务发现能力,覆盖主机的基础资源、网络、系统监

尤其在快速弹性伸缩场景。发现主机控等,同时覆盖主机上层应用运行监

后是否具备采集探针的自动化安装。单实例控。

主机

指标覆盖度

稳定与故障恢复能力

主机的基础监控指标,涵盖性能、资主机上指标采集探针的可靠与稳定性,

源、网络、负载等。主机的高阶监控是否具备一定的故障的自恢复能力。

指标,涵盖内核、进程、应用等。

GOPS全球运维大会暨XOps技术创新峰会2024·北京站

挑战与难点二

大数据处理问题大规模采集问题

主机达到一定规模后,后端数据处理主机达到一定规模后,分散的大量采

链路的抗压能力,大数据的处理效率,集探针或者Exporter,如何能做到低

决定数据查询和告警的延迟时间。大规模故障率运行,亦或故障自恢复效率,

文档评论(0)

150****8957 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档