刘凯宁-蚂蚁故障应急全流程体系构建及应用实践.pdf

刘凯宁-蚂蚁故障应急全流程体系构建及应用实践.pdf

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

蚂蚁故障应急全流程体系构建

及应用实践

刘凯宁

个人介绍

刘凯宁

⚫蚂蚁集团SRE技术专家

⚫熟悉全链路技术风险防控方案,深度参与过容量、资源、压测、应急、变

更、资金安全等领域的业务布防和能力建设

⚫多次参与公司级超大型活动的稳定性保障,承担过大促保障队长、全链路

压测负责人、全链路资源容量负责人、全链路资金安全保障负责人等角色

FixtheProblem,NottheBlame

wechat:mengqing-albert

dingding:liukaining2019

稳定性灵魂三问

◼线上故障到底是什么?

◼谁应该为线上稳定性负责?

◼如何评价应急到底做的好不好?

目录

01蚂蚁故障体系介绍02蚂蚁应急体系介绍

03一个线上故障的全生命周期04AI助力,未来已来

01

蚂蚁故障体系介绍

蚂蚁故障体系_故障定义

在日常运营中,无论什么原因导致我们服务中断、服务品质下降或用户服务体验下降

的现象,称为故障,但不包括用户方环境或自身操作引起的问题

⚫用户服务体验下降:故障的核心要关注用户感受,可通过客诉舆情获知用户投诉,也可以通过监控渠道主动推知用户端的使用情况。

⚫服务中断、服务品质下降:即使没有用户投诉,没有多少用户使用,只要是蚂蚁集团提供的服务出了问题,都算故障。

⚫无论什么原因:无论是蚂蚁集团自身原因,还是第三方如供应商、运营商,或者蚂蚁集团调用了别人的服务出了问题,影响到用户,都是故障

⚫不包括的情况:用户方环境(没有联网等)或者自身操作引起

短时间内有多位用户拨打某次开发迭代不小心引入问某运营商网络抖动,导致某用户反馈错过参加某次定时

95188支付宝客服热线反馈题代码,导致某应用的异步日支付宝交易付款成功率同秒杀活动,导致没有抢到心

某页面无法打开消息积压,无法正常消费比昨日下跌5%以上仪的某联名款皮肤盲盒

是故障是故障是故障不是故障

蚂蚁故障体系_故障等级

故障等级是一套事先约定好的衡量故障影响度的标尺,数字越小,级别越高

⚫故障影响度涵盖哪些方面?

服务成本(客诉量):

P5P4P3P2P1

客诉量资损金额受影响用户数数据错误量故障场景定义JKMN

⚫如何使用?资损金额(理论):

事针对明确的业务故障场景,需要100%监控事作为标准,评价已经发生的故障等级,对影P2MP1

覆盖,并接入GOC724盯屏,及时发现异响多个产品线的故障,采用“就高原则”进行

前常触发应急止血

文档评论(0)

150****8957 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档