从传统运维走向AIOps转型之路.pdf

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
从传统运维走向AIOps转型之路 技术创新,变革未来 1、智能运维概述 目录 2、多维异常检测 3、告警质量治理 CONTENTS 4、智能故障分析 1 智能运维概述 智能运维的几个要点 海量数据时代面临的挑战 • 服务器规模越来越大 • 应用功能越来越丰富 • 服务的关联越来越复杂 • 引发故障的原因多种多样 • 涉及的团队和人员越来越多 智能运维的几个要点 • 全业务流程覆盖 • 故障前给出服务质量和风险点评估,做出故障预警 • 无需人工维护监控策略,故障时自动发出告警 • 多维度的异常检测,自动生成异常判断阈值 • 有效的告警收敛,多维度的对告警进行合并 • 智能对故障根因进行分析,给出最可能的原因,辅助人做决策 • 根据故障原因选择合适的故障自愈策略并执行,自动解决故障 2 多维异常检测 保证足够的监控覆盖率,及时发现各种异常 多维监控指标概述 • 静态阈值 • 有固定范围,无周期性 • 如CPU、内存使用率 • 需调整的静态阈值 • 无固定范围,无周期性 • 如集群响应时间 • 无固定阈值 • 无固定变化范围,有周期性 • 如PV、UV、订单量、交易额 多维度异常检测 1. 监控自动添加 • 无需人工添加监控 • 保证监控覆盖率 2. 静态阈值自动生成 • 无需人工维护异常判断阈值 • 可以配置海量的监控策略 3. 周期性指标的异常检测 • 业务关键指标的异常检测 一、监控自动添加 基础监控数据自动采集,依靠CMDB信息自动添加基础监控 添加监控的几个要素: 1. 集群名 2. 集群IP列表 3. 基础监控策略 4. 集群负责人 二、静态阈值自动生成 基于样本统计分布自动计算动态阈值 ⚫ 3-sigema ➢ 样本符合或近似正态分布 ➢ 易受异常值影响 ⚫ Tukey’s test ➢ 不受少量异常值的影响 ➢ 有时过于敏感 三、周期性指标的异常检测 • 背景 • 整体规律性较强 • 短期小幅波动较多 • 适用场景 • 网络出口或业务的进出流量 • 集群和域名的访问量 • 宏观业务数据 流量预测及异常检测的技术框架 智能异常检测的效果 • 基于数据异常程度将异常分为:普通异常、严重异常、陡变异常 • 模型有较好的普适性 • 适用于不同数量级的数据; • 适用于不同变化规律的数据; • 适用于不同业务的数据; 3 告警质量治理 对异常做精准的告警,减少告警数量,提升告警信息含量 告警质量治理 1. 告警收敛策略 • 减少告警的数量,减少对人的干扰 2. 智能告警合并 • 将同类的告警合并起来,

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档