- 1、本文档共44页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
AI驱动下的携程可观测平台
架构升级实践
;;
携程可观测平台介绍;
-为用户提供一站式旅行服务的网站
-应用数量:1w+
-实例数量(虚拟机+容器):40w+
-每分钟新增Metric数量:10亿+
-每日新增日志存储:1PB+;
Logging
-系统日志
-应用日志
-业务日志
-负载均衡日志
-第三方系统日志;
故障处理
-提供“上帝视角”
-提升故障处理效率
-基于历史经验自动解决故障;;
管理容量
-容量评分
-HPA/VPA配置推荐
-容量预测压测分析;
携程AIOps实践-根因定位
根据应用Metric报错数据和应用调用链Trace数据自动分析当前故障关联关系,提升根因定位效率;
数据及时性
-海量新增日志秒级写入
-日志丢失率控制
-全链路传输实时性;
携程可观测平台一站式产品入口;
可观测数据治理实践;
携程日志系统架构;
-新增日志Senario:平均每月50+新增场景
-存量日志场景保留天数持续增加(14-30-90…)
-日志容量峰值日增1PB;
可观测性数据膨胀-日志量持续增长原因分析
-业务自然增长造成的日志增加…最理想情况:)
-存量日志需要延长时间应对客诉处理、故障分析、审计和合规需求(Top100日志平均保存时长为98天)
-做加法容易,做减法很费劲,研发普遍采用详尽的日志记录策略、为了确保后续排障时能有效定位
-存储字段不断增加,大量场景需要保存请求报文和访问报文,极端场景下单个报文字段长度超过20万字符
-ClickHouse压缩率较高,是平均单价较低的一种存储介质,相对而言容易出现滥用的情况;;;
可观测性数据膨胀-Bigeyes告警中台建设;
可观测性数据膨胀-Bigeyes告警中台建设;
Oncall机制
-引入Bot协助处理
-告警自愈能力提升
-故障响应及处理方法沉淀;
Metric-name;
过滤能力
-自动识别无效的维度
-实例维度-应用维度
-不期望单靠Metric解决所有问题;
平台架构升级助力AIOPS;
PROMXY
MetricFederation查询入口;
构建日志统一查询层(1);
-基于统计分析的不合理查询过滤
-基于规则的问题查询禁用
-平均每??拦截1.5K+不合理用户查询
-自动禁用有问题查询来源;
日志跨集群迁移工具-让存量日志“动”起来;
日志跨集群迁移工具-“ClickhouseBalancer”;
系统级监控指标
-CPU
-内存
-磁盘IO
-网络IO
-其他系统服务;
格式和命名统一
使用统一的监控Agent可以确保所有采集的数据采用一致的格式和标准,便于后续的存储、处理和分析。
统一的命名规范可以减少数据混淆,确保不同来源的数据可以正确关联和对比。;
携程统一监控Agent运营情况;
可观测数据价值深入挖掘-整体思路;
可观测数据价值深入挖掘-AI通用智能告警
-数据采集-由可观测平台提供统一的数据抓取和推送消息队列
-配置中心-由AIOPS团队提供规则配置存储
-智能引擎训练-AIOPS团队消费消息训练时序曲线。;
可观测数据价值深入挖掘-AI通用智能告警;
案例实践与展望;
“运维之眼”
-监控工具提供基础数据
-可观测平台提升数据质量;
-典型场景包括:故障磁盘自动拉出集群;故障机器自动隔离;发现某类型日志自动重启应用;
-规则明确、执行流程固定、影响面可控的情况,接入AIOPS助手可以显著提升工作效率、降低故障处理时间;
日常运维工作中的痛点问题-被动式故障管理;
日常运维工作中的痛点问题-被动式故障管理;
日常运维工作中的痛点问题-被动式故障管理;
日常运维工作中的痛点问题-RCA会议自动总结;
流程优化;
“手”“眼”合一,可观测平台持续升级,自动化工具+知识库建设形成规范;
THANKS
大模型正在重新定义软件
LargeLanguageModelIsRedefining
TheSoftware
您可能关注的文档
最近下载
- 主管药师竞聘.pptx VIP
- 压疮的分期及处理.ppt
- 《鹊桥仙》(共19张PPT)统编版高中语文必修上册.pptx VIP
- 图书馆狮子儿童绘本.ppt
- 成都市建设工程围挡设置技术指南.pdf
- 2023年春重庆理工大学《00015大学英语》题库答案.pdf VIP
- 领导干部日常工作生活中应知应会的法律知识:贪污、受贿、职务侵占等犯罪的案例分析和警示教育(下篇)-2024年云南省执业药师公需课答案.docx VIP
- 银行营销个人工作计划5篇.docx VIP
- 2024年春季国开《学前教育科研方法》期末大作业(参考答案).docx
- 2024-2025学年初中音乐七年级下册苏少版(2024)教学设计合集.docx
文档评论(0)