服务器应急响应体系..ppt

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
服务器应急响应体系.

* 情景模拟 应急事件等级划分标准 辅助的细分判断标准(二) 应急事件等级划分标准 试判断以下事件的等级: 某日凌晨客服反馈:部分玩家 无法使用农行卡进行充值,我司技术人员结果检查发现:我方电商系统运行良好,为农行系统故障。联系农行人员,30分钟后故障解决。 内容提纲 应急响应体系介绍 应急响应中的角色以及职责 应急事件等级划分标准 应急响应中的辅助故障判断工具 情景模拟 应急响应中的辅助故障判断工具 人数监控二期(监控) 应急响应中的辅助故障判断工具 人数监控二期(监控)人数查询界面 应急响应中的辅助故障判断工具 CobWeb 应急响应中的辅助故障判断工具 CobWeb的节点分时走势图 应急响应中的辅助故障判断工具 CobWeb的节点到节点分时走势图 应急响应中的辅助故障判断工具 人数监控二期(分析) 应急响应中的辅助故障判断工具 人数监控二期(分析)选择曲线对比界面 应急响应中的辅助故障判断工具 人数监控二期(分析)选择曲线对比界面 应急响应中的辅助故障判断工具 人数监控二期(分析)明细查询界面 内容提纲 应急响应体系介绍 应急响应中的角色以及职责 应急事件等级划分标准 应急响应中的辅助故障判断工具 情景模拟 情景模拟 2006年1月30日23:55泡泡堂监控值班A下楼吃晚餐,监控任务暂交传奇监控值班B代看,这时B发现泡泡堂2区人数突降31000多人,这时B该怎么办? 首先判断属于应急事件 应立即打6308电话分机报告协调员 情景模拟 协调员接到应急事件报告,确认情况后通知泡泡堂技术经理C作为事件主负责人,并在事件平台上新建事件 情景模拟 泡泡堂技术经理C接到协调员电话通知时,正在杭州出差无法处理,但能初步判断事件可能和2区的游戏登陆服务器有关,这时C该做些什么? 向协调员说明情况,并指定新的事件主负责人 情景模拟 协调员通知经理指定人员-技术工程师D作为新的主负责人,D在家,可以上网,这时D该做些什么? 立即登陆事件平台,打开当前事件,进行协调处理 情景模拟 技术工程师D在线指导值班人员重启泡泡堂2区登陆服务器,经观察后无效 ;后查看游戏服务器日志,发现与DB连接异常。由于值班人员无权限连DB,D在家有IPsec限制、登陆DB有防火墙限制,所以在家无法继续进行处理,而深夜也没有项目值班。在这个阶段中D应该做些什么?接着该怎么办? 在事件平台上及时反馈处理过程和进展 通知合适人员协助处理 情景模拟 技术工程师D通知住在公司附近的项目组成员E立即赶往公司进行处理。E赶往公司清理DB空间,重启全区,人数回升至正常。E在工作中应该做些什么? 同样登陆事件平台,随时汇报事件处理进展。 情景模拟 事件至此是否已经结束?结束的标准是什么?确认事件结束后,主负责人还需要做哪件事? 结束 对公司业务影响或对用户影响消除,事件就结束了 通知协调员关闭当前事件 QA * * * 举例说明:对公司业务造成影响 1、游戏服务器因受到攻击而停止服务 2、办公专线故障导致邮件无法收发 3、游戏人数突然下降 4、玩家无法进行充值 5、游戏网站无法访问等 * 整体 整个体系由前期预案、中期执行和后期分析三个阶段组成,这三个阶段循环往复,以达到系统不断完善、改进的目的。 前期预案为紧急事件的发生做预防准备工作,后期分析对执行中的各项问题进行统计分析,分析结果指导改进前期预防机制。 * 中期执行 发现:有两种情况:网络监控部通过监控信息发现;其他部门或人员发现的紧急事件。 协调:任何人发现或接到外部紧急事件报告必须第一时间通知技术保障中心网络监控部的事件协调员。 处理:协调员证实事件后会将事件录入事件平台,并及时通知事件主负责人,在事件处理过程中协调员会与事件主处理人随时保持联络,跟进事件的处理进展直至影响消除,事件关闭。 * 作为事件主负责人的您 如果接到协调员通知后30分钟内没有登陆事件平台录入判断和处理过程,协调员将上报至您的直接领导。如果在上报道您的直接领导以后15分钟内您仍然没有登陆事件平台录入判断和处理过程,协调员将上报至总监。 如果发现事件处理过程中事件主负责人极不合作的情况,经质控部调查属实的,将根据《员工手册》中相应条款对责任人提请处分。 * 对于事件是否结束的判断应以事件对用户造成的影响是否结束为判断标准,而事件结束不一定表示事件处理过程的结束。 * * * 盛大网络服务器应急响应体系 2011年11月 内容提纲 应急响应体系介绍 应急响应中的角色以及职责 应急事件等级划分标准 应急响应中的辅助故障判断工具 情景模拟 应急响应体系介绍 基本目标 积极预防,常备不懈; 及时发现,快速响应; 定期分析,及时总结。 适用范围 适用于突发的,不可预见的

文档评论(0)

叮当文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档