HC1209205 第五章集群NAS存储系统故障处理2.0资料.ppt

下载文档 降价啦

25
0
约1.54万字
约 51页
2019-01-02 发布于湖北
举报
版权申诉
保障服务

HC1209205 第五章集群NAS存储系统故障处理2.0资料.ppt

1、本文档共51页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

解决步骤：在网络管理人员的协助下，找到并修改地址冲突的那台主机的IP地址。验证恢复：重新登录集群，通过master用户可以正常登录集群。 * 如果fs fsck 命令无法成功执行，需要使用support账户登入集群节点，首先使用cfsmntadm display命令查看文件系统是否依然mount，如果依然mount，使用cfsumount命令卸载文件系统在suport账户下，使用fsck –t vxfs –o full –y /dev/vx/dsk/sfsdg/fs100g命令对文件系统做全校验使用fs online fs100g命令上线文件系统设置时区时先使用clock regions命令查找到设备所在地所属的时区，软后使用clock timezone clock Easten 设置时区即可若依然无法恢复，观察故障文件系统上是否仍有业务运行，若有则先将业务中止，随后在CLI下执行fs offline fsname操作将文件系统下线；接着再执行fs online fsname操作将文件系统上线，即可解决。如果没有mount，在master下使用fs online fs_strip使得文件系统上线，在使用nfs server start命令重启NFS服务修复 NFS服务恢复正常后，等待约5分钟后（若节点数和网口数较多，请适当增加等待时间），如果IP依然没有分布到其他节点，需要手动使用ip addr online命令重新分布IP N8000设备的版本包括：集群NAS引擎软件的版本存储单元的软硬件版本 ISM管理软件的版本收集N8000设备的日志信息包括：集群NAS引擎的debug信息存储单元的日志信息 ISM管理软件的日志信息 * 原始信息分析主要用来判断故障的范围、确定故障种类，原始信息分析可以为缩小故障的定位范围和初步定位问题提供依据指示灯状态分析系统硬件（如集群系统、存储系统）都提供了相应的运行、状态和特性指示灯，可以直接反映硬件的工作状况，是故障分析和定位的重要依据之一指示灯状态分析用于快速查找硬件故障原因，由于指示灯所包含的信息量相对不足，应与告警信息分析配合执行告警信息分析告警信息是指系统输出的告警信息，通常以指示灯、声音、屏幕输出等形式提供给维护人员，具有简单、明了的特点告警信息包含故障现象、可能引起故障的原因、修复建议等，是故障分析的重要依据之一，可通过告警信息定位故障发生的位置和大致原因告警信息分析告警信息是指系统输出的告警信息，通常以指示灯、声音、屏幕输出等形式提供给维护人员，具有简单、明了的特点告警信息包含故障现象、可能引起故障的原因、修复建议等，是故障分析的重要依据之一，可通过告警信息定位故障发生的位置和大致原因日志信息分析本系统提供详细的日志记录功能，故障分析时可通过日志信息了解系统运行状况。相对于告警信息，日志信息更详细和具体，可直接用于定位故障发生的原因消息跟踪分析消息跟踪可用于分析上网流程和设备间消息交互流程。利用跟踪结果，维护人员可直接定位故障原因，或从中得到启发，为后续分析提供宝贵的思路 N8000引擎节点硬件故障主要包括: 节点控制器的硬件故障节点接口卡的故障，包括业务端口接口卡故障和连接后端存储单元的接口卡故障节点系统硬盘故障节点电源和风扇故障引擎节点软件故障主要包括: 引擎软件安装和登录故障：无法通过master账号登录、CLI登录异常、引擎之间的信任关系异常集群容错故障：物理路径异常导致的业务挂死、节点异常导致的集群挂死功能使用故障：iofencing功能故障、文件系统故障、cifs应用故障、NFS应用故障 * * * 判断是否由于后端存储单元的原因导致业务中断，首先需要确认FC网络是否正常，然后确认引擎能否发现磁盘，然后再从存储单元侧发现原因。如果性能下降首先检查业务网络的性能情况（需要检查业务交换机），其次需要检查文件系统参数配置情况，然后查看FC网络的速率和运行情况，最后查看存储单元LUN的运行情况，包括LUN的参数是否和业务匹配，如果都没问题，需要检查RAID组是否降级或者处于重构状态，如果也没问题，需要检查RAID组中是否存在慢盘。 * 引擎节点的硬件故障问题，可以参考通用的服务器故障诊断和处理流程 I1910 Intrusion detected. Check chassis cover E1414 CPU # temp exceeding range. Check CPU heatsink E2118 Unrecoverable Memory CRC error. Power cycle AC E1812 Hard drive ## removed. Ch

您可能关注的文档

文档评论（0）

586334000 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

HC1209205 第五章集群NAS存储系统故障处理2.0资料.ppt