- 1、本文档共83页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应急预案通用标准处置race v12
修改记录
编号
日期
描述
版本
作者
审核
发布日期
1
2012-3-30
建立文档
1.0
贺耀东
2
2012-6-6
补充场景,补充CMMP告警对应信息
1.0
贺耀东
3
2013-3-26
补充11gASM部分1.1.24-26和2.1.28-2.1.31;crs_stat –t命令补充11g对应命令
1.0
贺耀东
4
2013-7-31
增加1.1.28/29、2.1.32/33/34
1.1
贺耀东
5
2013-08-29
增加1.1.30、31、32
1.1
贺耀东
6
2013-9-22
增加2.1.35
1.2
贺耀东
7
2013-10-21
增加1.1.33
1.2
贺耀东
8
9
10
11
12
13
14
15
如无中国建设银行的书面许可,任何人都无权复制或利用。
?Copy Right 2005 by China Construction Bank
应急处置操作手册
故障场景及处置流程
通用数据库故障场景
单节点数据库(含RAC一边节点)无响应,其上所有业务HANG
事件级别:五级
授权级别:部室负责人授权
场景描述:单节点数据库(含RAC一边节点)无响应,所有业务HANG;
CMMP报警:Oracle数据库可用性数据库连接状态当前值为;
存档设备上的空闲空间当前值为
业务影响:该数据库节点上业务完全中断。
启动条件:无
现场保护:按GD200中的方式要求,收集Oracle信息。
故 障 场 景 应 急 处 置
序号
调用处置编号
处 置 简 要 描 述
时间树
T1
GD007
确认数据库已不响应
2分钟
T2
GD012
检查数据库日志,如果发现是日志归档无法进行,执行T3;否则执行T4
2分钟
T3
检查归档日志文件系统是否正常,问题解决后转至T7
3分钟
T4
GD002
调用GD002重启数据库
10分钟
T5
GD012
检查数据库日志,确认数据库重启正常
1分钟
T6
GD007
确认数据库状态正常,通知应用重启
1分钟
T7
应急救治结束
修订日期:2012年6月4日 修订人: 贺耀东
RAC数据库整体无响应,所有业务HANG
事件级别:五级
授权级别:部室负责人授权
场景描述:RAC数据库整体无响应,所有业务HANG
CMMP告警:Oracle数据库可用性数据库连接状态当前值为
业务影响:所有业务
启动条件:无
现场保护:按GD200中的方式要求,收集Oracle信息。
故 障 场 景 应 急 处 置
序号
调用处置编号
处 置 简 要 描 述
时间树
T1
GD007
确认各节点数据库都已不响应
2分钟
T2
GD012
检查各节点数据库日志,如果发现是日志归档无法进行,执行T3;否则执行T4
2分钟
T3
检查归档日志文件系统是否正常,问题解决后转至T7
3分钟
T4
GD013
检查CRS各日志,确认最早出现问题的节点,找到原因。
5分钟
T5
GD004/GD007
关闭最早出现问题的节点数据库,重启该主机;主机无法连接后,调用GD007确认其他节点已正常;如果未正常,依次关闭其他节点数据库,重启主机。
15分钟
T6
GD012
检查数据库日志,确认数据库重启正常,通知应用重启
1分钟
T7
GD007
确认数据库状态正常
1分钟
T8
应急救治结束
修订日期:2012年6月4日 修订人: 贺耀东
整体业务速度慢,主机持续有CPU(一个或多个) 高,且占用CPU高的pid固定
事件级别:六级
授权级别:部室日常授权
场景描述:整体业务速度慢,主机持续有CPU(一个或多个) 高,且占用CPU高的pid固定
CMMP告警:Unix服务器CPU利用率当前值为
业务影响:整体业务速度慢。
启动条件:无
现场保护:无
故 障 场 景 应 急 处 置
序号
调用处置编号
处 置 简 要 描 述
时间树
T1
GD014
根据pid找到当时正在执行的SQL
1分钟
T2
GD015
查看该SQL的执行计划
1分钟
T3
GD016
查看相关表的具体信息,分析问题原因,采取相应操作.
10分钟
T4
应急救治结束。
5分钟
修订日期:2012年6月4日 修订人: 贺耀东
整体业务速度慢,主机CPU不高,或占用CPU高的pid持续变化
事件级别:六级
授权级别:部室日常授权
场景描述:整体业务速度慢
业务影响:整体业务速度慢
启动条件:无
现场保护:无
故 障 场 景 应 急 处 置
序号
调用处置编号
处 置 简 要 描 述
时间树
T1
GD008
生成AWR、ASH报告
3分钟
T2
分析原因:如果是大批量小SQL反复执行,可能是由于业务量突增引起;如果是由于锁冲突(Latch)、队列等待(Enq)造成
文档评论(0)