应急预案通用标准处置race v12.doc

  1. 1、本文档共83页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应急预案通用标准处置race v12

修改记录 编号 日期 描述 版本 作者 审核 发布日期 1 2012-3-30 建立文档 1.0 贺耀东 2 2012-6-6 补充场景,补充CMMP告警对应信息 1.0 贺耀东 3 2013-3-26 补充11gASM部分1.1.24-26和2.1.28-2.1.31;crs_stat –t命令补充11g对应命令 1.0 贺耀东 4 2013-7-31 增加1.1.28/29、2.1.32/33/34 1.1 贺耀东 5 2013-08-29 增加1.1.30、31、32 1.1 贺耀东 6 2013-9-22 增加2.1.35 1.2 贺耀东 7 2013-10-21 增加1.1.33 1.2 贺耀东 8 9 10 11 12 13 14 15 如无中国建设银行的书面许可,任何人都无权复制或利用。 ?Copy Right 2005 by China Construction Bank 应急处置操作手册 故障场景及处置流程 通用数据库故障场景 单节点数据库(含RAC一边节点)无响应,其上所有业务HANG 事件级别:五级 授权级别:部室负责人授权 场景描述:单节点数据库(含RAC一边节点)无响应,所有业务HANG; CMMP报警:Oracle数据库可用性数据库连接状态当前值为; 存档设备上的空闲空间当前值为 业务影响:该数据库节点上业务完全中断。 启动条件:无 现场保护:按GD200中的方式要求,收集Oracle信息。 故 障 场 景 应 急 处 置 序号 调用处置编号 处 置 简 要 描 述 时间树 T1 GD007 确认数据库已不响应 2分钟 T2 GD012 检查数据库日志,如果发现是日志归档无法进行,执行T3;否则执行T4 2分钟 T3 检查归档日志文件系统是否正常,问题解决后转至T7 3分钟 T4 GD002 调用GD002重启数据库 10分钟 T5 GD012 检查数据库日志,确认数据库重启正常 1分钟 T6 GD007 确认数据库状态正常,通知应用重启 1分钟 T7 应急救治结束 修订日期:2012年6月4日 修订人: 贺耀东 RAC数据库整体无响应,所有业务HANG 事件级别:五级 授权级别:部室负责人授权 场景描述:RAC数据库整体无响应,所有业务HANG CMMP告警:Oracle数据库可用性数据库连接状态当前值为 业务影响:所有业务 启动条件:无 现场保护:按GD200中的方式要求,收集Oracle信息。 故 障 场 景 应 急 处 置 序号 调用处置编号 处 置 简 要 描 述 时间树 T1 GD007 确认各节点数据库都已不响应 2分钟 T2 GD012 检查各节点数据库日志,如果发现是日志归档无法进行,执行T3;否则执行T4 2分钟 T3 检查归档日志文件系统是否正常,问题解决后转至T7 3分钟 T4 GD013 检查CRS各日志,确认最早出现问题的节点,找到原因。 5分钟 T5 GD004/GD007 关闭最早出现问题的节点数据库,重启该主机;主机无法连接后,调用GD007确认其他节点已正常;如果未正常,依次关闭其他节点数据库,重启主机。 15分钟 T6 GD012 检查数据库日志,确认数据库重启正常,通知应用重启 1分钟 T7 GD007 确认数据库状态正常 1分钟 T8 应急救治结束 修订日期:2012年6月4日 修订人: 贺耀东 整体业务速度慢,主机持续有CPU(一个或多个) 高,且占用CPU高的pid固定 事件级别:六级 授权级别:部室日常授权 场景描述:整体业务速度慢,主机持续有CPU(一个或多个) 高,且占用CPU高的pid固定 CMMP告警:Unix服务器CPU利用率当前值为 业务影响:整体业务速度慢。 启动条件:无 现场保护:无 故 障 场 景 应 急 处 置 序号 调用处置编号 处 置 简 要 描 述 时间树 T1 GD014 根据pid找到当时正在执行的SQL 1分钟 T2 GD015 查看该SQL的执行计划 1分钟 T3 GD016 查看相关表的具体信息,分析问题原因,采取相应操作. 10分钟 T4 应急救治结束。 5分钟 修订日期:2012年6月4日 修订人: 贺耀东 整体业务速度慢,主机CPU不高,或占用CPU高的pid持续变化 事件级别:六级 授权级别:部室日常授权 场景描述:整体业务速度慢 业务影响:整体业务速度慢 启动条件:无 现场保护:无 故 障 场 景 应 急 处 置 序号 调用处置编号 处 置 简 要 描 述 时间树 T1 GD008 生成AWR、ASH报告 3分钟 T2 分析原因:如果是大批量小SQL反复执行,可能是由于业务量突增引起;如果是由于锁冲突(Latch)、队列等待(Enq)造成

文档评论(0)

seunk + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档