HC1209205 第五章 集群NAS存储系统故障处理2.0资料.ppt

HC1209205 第五章 集群NAS存储系统故障处理2.0资料.ppt

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
解决步骤:在网络管理人员的协助下,找到并修改地址冲突的那台主机的IP地址。 验证恢复:重新登录集群,通过master用户可以正常登录集群。 * 如果fs fsck 命令无法成功执行,需要使用support账户登入集群节点,首先使用cfsmntadm display命令查看文件系统是否依然mount,如果依然mount,使用cfsumount命令卸载文件系统 在suport账户下,使用fsck –t vxfs –o full –y /dev/vx/dsk/sfsdg/fs100g命令对文件系统做全校验 使用fs online fs100g命令上线文件系统 设置时区时先使用clock regions命令查找到设备所在地所属的时区,软后使用clock timezone clock Easten 设置时区即可 若依然无法恢复,观察故障文件系统上是否仍有业务运行,若有则先将业务中止,随后在CLI下执行fs offline fsname操作将文件系统下线;接着再执行fs online fsname操作将文件系统上线,即可解决。 如果没有mount,在master下使用fs online fs_strip使得文件系统上线,在使用nfs server start命令重启NFS服务修复 NFS服务恢复正常后,等待约5分钟后(若节点数和网口数较多,请适当增加等待时间),如果IP依然没有分布到其他节点,需要手动使用ip addr online命令重新分布IP N8000设备的版本包括: 集群NAS引擎软件的版本 存储单元的软硬件版本 ISM管理软件的版本 收集N8000设备的日志信息包括: 集群NAS引擎的debug信息 存储单元的日志信息 ISM管理软件的日志信息 * 原始信息分析 主要用来判断故障的范围、确定故障种类,原始信息分析可以为缩小故障的定位范围和初步定位问题提供依据 指示灯状态分析 系统硬件(如集群系统、存储系统)都提供了相应的运行、状态和特性指示灯,可以直接反映硬件的工作状况,是故障分析和定位的重要依据之一 指示灯状态分析用于快速查找硬件故障原因,由于指示灯所包含的信息量相对不足,应与告警信息分析配合执行 告警信息分析 告警信息是指系统输出的告警信息,通常以指示灯、声音、屏幕输出等形式提供给维护人员,具有简单、明了的特点 告警信息包含故障现象、可能引起故障的原因、修复建议等,是故障分析的重要依据之一,可通过告警信息定位故障发生的位置和大致原因 告警信息分析 告警信息是指系统输出的告警信息,通常以指示灯、声音、屏幕输出等形式提供给维护人员,具有简单、明了的特点 告警信息包含故障现象、可能引起故障的原因、修复建议等,是故障分析的重要依据之一,可通过告警信息定位故障发生的位置和大致原因 日志信息分析 本系统提供详细的日志记录功能,故障分析时可通过日志信息了解系统运行状况。相对于告警信息,日志信息更详细和具体,可直接用于定位故障发生的原因 消息跟踪分析 消息跟踪可用于分析上网流程和设备间消息交互流程。利用跟踪结果,维护人员可直接定位故障原因,或从中得到启发,为后续分析提供宝贵的思路 N8000引擎节点硬件故障主要包括: 节点控制器的硬件故障 节点接口卡的故障,包括业务端口接口卡故障和连接后端存储单元的接口卡故障 节点系统硬盘故障 节点电源和风扇故障 引擎节点软件故障主要包括: 引擎软件安装和登录故障:无法通过master账号登录、CLI登录异常、引擎之间的信任关系异常 集群容错故障:物理路径异常导致的业务挂死、节点异常导致的集群挂死 功能使用故障:iofencing功能故障、文件系统故障、cifs应用故障、NFS应用故障 * * * 判断是否由于后端存储单元的原因导致业务中断,首先需要确认FC网络是否正常,然后确认引擎能否发现磁盘,然后再从存储单元侧发现原因。 如果性能下降首先检查业务网络的性能情况(需要检查业务交换机),其次需要检查文件系统参数配置情况,然后查看FC网络的速率和运行情况,最后查看存储单元LUN的运行情况,包括LUN的参数是否和业务匹配,如果都没问题,需要检查RAID组是否降级或者处于重构状态,如果也没问题,需要检查RAID组中是否存在慢盘。 * 引擎节点的硬件故障问题,可以参考通用的服务器故障诊断和处理流程 I1910 Intrusion detected. Check chassis cover E1414 CPU # temp exceeding range. Check CPU heatsink E2118 Unrecoverable Memory CRC error. Power cycle AC E1812 Hard drive ## removed. Ch

文档评论(0)

586334000 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档