运维应急故障处理方案以及机房应急处理流程.doc

运维应急故障处理方案以及机房应急处理流程.doc

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

公司名称

文件编码

AQ2I-02-S001

文件名称

运维应急故障处理方案

页次/总页码

PAGE1/9

运维应急故障

处理方案

文件编码

AQ2I-02-S001

版本

V03

文件层级

一阶□二阶

■三阶

文件类别

■体系文件

□技术文件

编制部门

运维部

机密等级

■内文□秘密

□机密□绝密

编制人

文件类别

■通用

□项目

审核

编制日期

审批

生效日期

总页数

9

分发编号

01

文件发布盖章

文件制/修订记录

页码

章节

制/修订记录

版本

修订人

修订日期

备注

修订前

修订后

全部

全部

首次制定

V01

2,3

4,5

职责/作业内容

V01

V02

全部

全部

按新的角色职责定义更新角色

V02

V03

1目的

用于突发性事件发生后的应急处理措施,确保在紧急情况下仍能保证系统平台正常运行

2适用范围

本程序适用于所有在系统平台运行过程中能事先预测到的非自然灾害所产生的突发性事件。

3术语和定义

突发事件:

由于系统软件,硬件,接入线路,机房电力,温度等发生问题和突发意外,引起故障时间达30分钟以上,造成关键服务不可用,形成重大影响的事件。

4职责

4.1运维工程师:

负责突发性事件应急处理计划和对策的拟定和执行。

4.2平台研发部,移动应用部,客户服务部,服务营销部:

由部门负责人及相关人员共同处理突发性应急事件。

4.3质量管理工程师:

负责突发性事件应急处理计划和对策的监督执行。

5作业内容

5.1突发事件分类和应急处理

5.1.1基础设施环境不可用

包括运营商网络割接、机房电力、空调、线路接入等基础设施出现故障,且影响时间高于30分钟的。

对于运营商已告知问题原因时处理方案:

1.提前通知相关运营人员和客户服务部

2.通告影响时间,影响范围

3.公告用户

4.调整域名解析,启用容灾机房

对于运营商未告知问题原因时处理方案:

1.紧急联络机房接口人

2.了解故障原因,和影响时间,评估影响范围

3.紧急公告,启用预案同已知问题处理

5.1.2设备不可用

服务器硬件故障、交换机及防火墙等网络设备发生故障,且影响时间高于30分钟的故障处理方案:

1.通知相关运营人员和客户服务部

2.启用备份设备

3.分析故障原因,通知厂家售后

5.1.3服务不可用

软件程序问题,且影响时间高于30分钟的故障处理方案:

1.通知相关运营人员和客户服务部

2.回滚到上一个稳定软件版本

3.保存日志文件,分析定位问题原因

4.通知开发人员修正软件缺陷

5.测试通过之后重新上线

数据库问题,且影响时间高于30分钟的故障处理方案:

1.通知相关运营人员和客户服务部.

2.提前建立数据库集群

3.从库出现问题,访问解析到其它从库上

4.主库出现问题,将一台从库提升为主库

5.定期全备份和增量备份数据文件

5.保存日志操作文件

遭受恶意攻击,且攻击时间高于30分钟的故障处理方案:

1.通知相关运营人员和客户服务部.

2.在防火墙上操作内容:

定期检查更新防火墙策略;

屏蔽恶意IP;

限制每秒的连接数。

3.在服务器上操作内容:

提前部署cache服务器;

屏蔽公网访问核心服务端口;

设定iptables策略。

4.病毒入侵等情况操作内容:

定期扫描系统和应用软件漏洞;

定期升级系统Patch;

利用云服务。

对于已经执行上述措施,仍无法抵御攻击的情况,将部分服务迁移到公有云上,利用云服务进行容灾。

5.1.4正常业务量徒增

处理方案:

1.和相关运营部门建立即使沟通机制,了解产品推广活动

2.购置IDC富余带宽,用于抗峰值

3.将关键服务分布式部署

5.2故障记录和备案

5.2.1建立【事件记录表】

5.2.2分析故障原因,制定解决方案,避免相似故障再次发生

5.3应急预案演练

5.3.1明确演练范围和参与人员

如果组织是第一次进行灾难恢复演练,不要尝试在演练中测试整个业务连续性计划,而应该选择计划中的一两个部分来进行测试。多次小规模的演练比一次大规模的演练能够让组织获得更多的价值。

????在明确了演练的范围后,组织需要确定演练的参与人员。参与人员通常是与演练范围相对应的执行人员,同时也可以包括熟悉演练范围的管理人员。

????预先明确演练范围和参与人员的好处在于,能够深入演练,加深理解,并控制规模。当组织逐渐适应这种演练时,就可以开始进行复杂的、测试整个计划的演练了。

5.3.2组建演练规划小组

这是一个关键的步骤,组织需要将一小部分演练参与人员纳入到规划小组中。小组成员也可以包括非具体执行人员,但他们必须了解演练范围内的业务和流程。规划小组至少应该包含一位公司高层,以增强规划的可信度。

5.3.3设定演练目标

??让规划小组的每

文档评论(0)

ooogggzzz2 + 关注
实名认证
内容提供者

湖南师范大学毕业,党员

1亿VIP精品文档

相关文档