数据中心基础设施运维最佳实践项目.PDF

数据中心基础设施运维最佳实践项目.PDF

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据中心基础设施运维最佳实践项目

[编号ODCC-02-2016] 数据中心基础设施 运维最佳实践项目 [文档副标题] 故障处理专题 V1.0 开放数据中心委员会 2016-09-27 发布 修订记录 No 版本号 修改内容简介 日期 修改人 1 V1.0 2016 年9 月ODCC 峰会初次发布 2016.09.27 颜小云、杨鑫 1 目录 总览 3 故障分级 4 故障通报 6 故障处理 9 故障记录与分析 11 2 一、 总览 数据中心基础设施运维的一个重要目标就是减少故障 的发生,从而保障数据中心的可用性。但故障总是无 法完全避免的,尤其是在数据中心刚投入运行以及生 命周期的后期,设备故障率往往会比较高。故障处理 是否得当,是否及时,直接关系到数据中心高可用性 的实现。 故障的来源通常有如下四种:监控系统发现的、巡检 发现的、设备维护过程中发现的以及市政通知(停水、 停电等)。但不管故障的来源是哪一个方面,对故障 的处理都必须做好故障的风险分级、故障通报、故障 处理以及最后的故障分析与统计工作。 二、故障分级 2.1 描述 根据故障的严重程度,需要对故障进行分级,不同的 故障等级有不同的处理和通报方式,比如针对会影响 到业务的紧急故障必须置为最高等级,这样可以用最 快的速度进行通报,并通知业务部门进行业务备份或 者迁移流量。 2.2 运维难点 3  依据什么原则对数据中心的故障进行分级? 厂家提供的动环系统、电力监控、冷水自控系统等往 往只是根据设备的重要性对告警进行分级,而数据中 心故障的分级必须考虑到整个数据中心设备配置的冗 余情况、特别是特定故障对业务的影响情况,然后通 过恰当的故障分级来指导整个故障的处理,所以故障 分级可以说是故障处理的第一道关口。 2.3 最佳实践 故障的分级可以根据故障对数据中心的影响范围和影 响程度来进行判断。通常分为三级即可,太多的故障 等级并不能对运维工作带来收益,反而会带来故障处 理方面的困惑。  一级故障:如果故障可以对机房设备的正常运行造 成或者即将造成大面积的影响,则通常设为一级故 障,比如双路市电停电将可能影响到整个数据中心 园区,所以属于一级故障;  二级故障:如果故障对机房设备的正常运行造成较 小面积的影响,或者某个故障使得系统处于无冗余 状态,则通常设为二级故障,比如列头柜单路断电, 但需要注意的是二级故障有升级一级故障的可能; 4  三级故障:如果故障不会对正常业务造成影响,理 论上也还存在系统冗余,则通常设为三级故障,比 如某台空调的风机告警; 为了让运维同学能够快速识别重要故障,对常见的一 级、二级故障,机房需要根据自己的实际情况建立常 见故障分级表,并定期更新和培训。 2.4 案例赏析 为了规范机房的故障处理流程,某互联网公司制订了 《XX 自建机房故障处理流程》对故障的分级原则做了 规定、并对常见故障的等级划分进行了总结。 2.5 文稿样例 以下是一个故障分级表的样例,内容并不完全,用户 需要根据自己的实际情况进行补充: 机房名称

文档评论(0)

ldj215322 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档