- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
公司名称
文件编码
AQ2I-02-S001
文件名称
运维应急故障处理方案
页次/总页码
PAGE1/9
运维应急故障
处理方案
文件编码
AQ2I-02-S001
版本
V03
文件层级
一阶□二阶
■三阶
文件类别
■体系文件
□技术文件
编制部门
运维部
机密等级
■内文□秘密
□机密□绝密
编制人
文件类别
■通用
□项目
审核
编制日期
审批
生效日期
总页数
9
分发编号
01
文件发布盖章
文件制/修订记录
页码
章节
制/修订记录
版本
修订人
修订日期
备注
修订前
修订后
全部
全部
首次制定
无
V01
2,3
4,5
职责/作业内容
V01
V02
全部
全部
按新的角色职责定义更新角色
V02
V03
1目的
用于突发性事件发生后的应急处理措施,确保在紧急情况下仍能保证系统平台正常运行
2适用范围
本程序适用于所有在系统平台运行过程中能事先预测到的非自然灾害所产生的突发性事件。
3术语和定义
突发事件:
由于系统软件,硬件,接入线路,机房电力,温度等发生问题和突发意外,引起故障时间达30分钟以上,造成关键服务不可用,形成重大影响的事件。
4职责
4.1运维工程师:
负责突发性事件应急处理计划和对策的拟定和执行。
4.2平台研发部,移动应用部,客户服务部,服务营销部:
由部门负责人及相关人员共同处理突发性应急事件。
4.3质量管理工程师:
负责突发性事件应急处理计划和对策的监督执行。
5作业内容
5.1突发事件分类和应急处理
5.1.1基础设施环境不可用
包括运营商网络割接、机房电力、空调、线路接入等基础设施出现故障,且影响时间高于30分钟的。
对于运营商已告知问题原因时处理方案:
1.提前通知相关运营人员和客户服务部
2.通告影响时间,影响范围
3.公告用户
4.调整域名解析,启用容灾机房
对于运营商未告知问题原因时处理方案:
1.紧急联络机房接口人
2.了解故障原因,和影响时间,评估影响范围
3.紧急公告,启用预案同已知问题处理
5.1.2设备不可用
服务器硬件故障、交换机及防火墙等网络设备发生故障,且影响时间高于30分钟的故障处理方案:
1.通知相关运营人员和客户服务部
2.启用备份设备
3.分析故障原因,通知厂家售后
5.1.3服务不可用
软件程序问题,且影响时间高于30分钟的故障处理方案:
1.通知相关运营人员和客户服务部
2.回滚到上一个稳定软件版本
3.保存日志文件,分析定位问题原因
4.通知开发人员修正软件缺陷
5.测试通过之后重新上线
数据库问题,且影响时间高于30分钟的故障处理方案:
1.通知相关运营人员和客户服务部.
2.提前建立数据库集群
3.从库出现问题,访问解析到其它从库上
4.主库出现问题,将一台从库提升为主库
5.定期全备份和增量备份数据文件
5.保存日志操作文件
遭受恶意攻击,且攻击时间高于30分钟的故障处理方案:
1.通知相关运营人员和客户服务部.
2.在防火墙上操作内容:
定期检查更新防火墙策略;
屏蔽恶意IP;
限制每秒的连接数。
3.在服务器上操作内容:
提前部署cache服务器;
屏蔽公网访问核心服务端口;
设定iptables策略。
4.病毒入侵等情况操作内容:
定期扫描系统和应用软件漏洞;
定期升级系统Patch;
利用云服务。
对于已经执行上述措施,仍无法抵御攻击的情况,将部分服务迁移到公有云上,利用云服务进行容灾。
5.1.4正常业务量徒增
处理方案:
1.和相关运营部门建立即使沟通机制,了解产品推广活动
2.购置IDC富余带宽,用于抗峰值
3.将关键服务分布式部署
5.2故障记录和备案
5.2.1建立【事件记录表】
5.2.2分析故障原因,制定解决方案,避免相似故障再次发生
5.3应急预案演练
5.3.1明确演练范围和参与人员
如果组织是第一次进行灾难恢复演练,不要尝试在演练中测试整个业务连续性计划,而应该选择计划中的一两个部分来进行测试。多次小规模的演练比一次大规模的演练能够让组织获得更多的价值。
????在明确了演练的范围后,组织需要确定演练的参与人员。参与人员通常是与演练范围相对应的执行人员,同时也可以包括熟悉演练范围的管理人员。
????预先明确演练范围和参与人员的好处在于,能够深入演练,加深理解,并控制规模。当组织逐渐适应这种演练时,就可以开始进行复杂的、测试整个计划的演练了。
5.3.2组建演练规划小组
这是一个关键的步骤,组织需要将一小部分演练参与人员纳入到规划小组中。小组成员也可以包括非具体执行人员,但他们必须了解演练范围内的业务和流程。规划小组至少应该包含一位公司高层,以增强规划的可信度。
5.3.3设定演练目标
??让规划小组的每
您可能关注的文档
- 运维应急故障处理方案2.doc
- 运维应急故障处理方案.doc
- 运维应急服务响应预案以及机房突发事件应急流程.docx
- 运维应急服务响应预案.docx
- 机场通行证考试试题.doc
- 电路分析教案2.doc
- 变压器差动保护的基本原理及逻辑图.doc
- 变压器保护课件以及差动保护基本原理.pptx
- 广东省清远市连山县2024-2025学年上学期期中检测七年级地理试题.pdf
- 2024-2025学年北京市通州区高二上学期期中考试物理试题(含答案).pdf
- 2023-2024学年广东省深圳市龙岗区高二(上)期末物理试卷(含答案).pdf
- 2023-2024学年贵州省贵阳市普通中学高一(下)期末物理试卷(含答案).pdf
- 21.《大自然的声音》课件(共45张PPT).pptx
- 2023年江西省吉安市吉安县小升初数学试卷(含答案).pdf
- 2024-2025学年广东省清远市九校联考高一(上)期中物理试卷(含答案).pdf
- 广东省珠海市六校联考2024-2025学年高二上学期11月期中考试语文试题.pdf
- 2024-2025学年语文六年级上册第4单元-单元素养测试(含答案).pdf
- 2024-2025学年重庆八中高三(上)月考物理试卷(10月份)(含答案).pdf
- 安徽省安庆市潜山市北片学校联考2024-2025学年七年级上学期期中生物学试题(含答案).pdf
- 贵州省部分校2024-2025学年九年级上学期期中联考数学试题(含答案).pdf
文档评论(0)