AI驱动下的可观测平台架构升级实践 2024-11(44页).pptxVIP

AI驱动下的可观测平台架构升级实践 2024-11(44页).pptx

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
AI驱动下的可观测平台架构升级实践 2024-11(44页)

AI驱动下的携程可观测平台

架构升级实践

;;

携程可观测平台介绍;

-为用户提供一站式旅行服务的网站

-应用数量:1w+

-实例数量(虚拟机+容器):40w+

-每分钟新增Metric数量:10亿+

-每日新增日志存储:1PB+;

Logging

-系统日志

-应用日志

-业务日志

-负载均衡日志

-第三方系统日志;

故障处理

-提供“上帝视角”

-提升故障处理效率

-基于历史经验自动解决故障;;

管理容量

-容量评分

-HPA/VPA配置推荐

-容量预测压测分析;

携程AIOps实践-根因定位

根据应用Metric报错数据和应用调用链Trace数据自动分析当前故障关联关系,提升根因定位效率;

数据及时性

-海量新增日志秒级写入

-日志丢失率控制

-全链路传输实时性;

携程可观测平台一站式产品入口;

可观测数据治理实践;

携程日志系统架构;

-新增日志Senario:平均每月50+新增场景

-存量日志场景保留天数持续增加(14-30-90…)

-日志容量峰值日增1PB;

可观测性数据膨胀-日志量持续增长原因分析

-业务自然增长造成的日志增加…最理想情况:)

-存量日志需要延长时间应对客诉处理、故障分析、审计和合规需求(Top100日志平均保存时长为98天)

-做加法容易,做减法很费劲,研发普遍采用详尽的日志记录策略、为了确保后续排障时能有效定位

-存储字段不断增加,大量场景需要保存请求报文和访问报文,极端场景下单个报文字段长度超过20万字符

-ClickHouse压缩率较高,是平均单价较低的一种存储介质,相对而言容易出现滥用的情况;;;

可观测性数据膨胀-Bigeyes告警中台建设;

可观测性数据膨胀-Bigeyes告警中台建设;

Oncall机制

-引入Bot协助处理

-告警自愈能力提升

-故障响应及处理方法沉淀;

Metric-name;

过滤能力

-自动识别无效的维度

-实例维度-应用维度

-不期望单靠Metric解决所有问题;

平台架构升级助力AIOPS;

PROMXY

MetricFederation查询入口;

构建日志统一查询层(1);

-基于统计分析的不合理查询过滤

-基于规则的问题查询禁用

-平均每??拦截1.5K+不合理用户查询

-自动禁用有问题查询来源;

日志跨集群迁移工具-让存量日志“动”起来;

日志跨集群迁移工具-“ClickhouseBalancer”;

系统级监控指标

-CPU

-内存

-磁盘IO

-网络IO

-其他系统服务;

格式和命名统一

使用统一的监控Agent可以确保所有采集的数据采用一致的格式和标准,便于后续的存储、处理和分析。

统一的命名规范可以减少数据混淆,确保不同来源的数据可以正确关联和对比。;

携程统一监控Agent运营情况;

可观测数据价值深入挖掘-整体思路;

可观测数据价值深入挖掘-AI通用智能告警

-数据采集-由可观测平台提供统一的数据抓取和推送消息队列

-配置中心-由AIOPS团队提供规则配置存储

-智能引擎训练-AIOPS团队消费消息训练时序曲线。;

可观测数据价值深入挖掘-AI通用智能告警;

案例实践与展望;

“运维之眼”

-监控工具提供基础数据

-可观测平台提升数据质量;

-典型场景包括:故障磁盘自动拉出集群;故障机器自动隔离;发现某类型日志自动重启应用;

-规则明确、执行流程固定、影响面可控的情况,接入AIOPS助手可以显著提升工作效率、降低故障处理时间;

日常运维工作中的痛点问题-被动式故障管理;

日常运维工作中的痛点问题-被动式故障管理;

日常运维工作中的痛点问题-被动式故障管理;

日常运维工作中的痛点问题-RCA会议自动总结;

流程优化;

“手”“眼”合一,可观测平台持续升级,自动化工具+知识库建设形成规范;

THANKS

大模型正在重新定义软件

LargeLanguageModelIsRedefining

TheSoftware

文档评论(0)

***** + 关注
实名认证
文档贡献者

信息系统项目管理师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年08月23日上传了信息系统项目管理师

1亿VIP精品文档

相关文档