- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
??
?
??
自动化运维管理系统故障处理机制的设计与实现
?
??
?
?
?
?
?
?
?
???
?
?
?
?
?
摘要:目前,我国是信息技术快速发展的新时期,随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、储存设备、中间件、业务系统让运维人员难以轻松应对,迫切需要自动化的运维管理服务,可以提供自动化的故障处理机制,实现故障感知,故障预警,故障自愈及故障自动排查,来实现高效的运维服务。
关键词:自动化运维管理;系统故障;设计与实现
引言
随着信息技术的持续发展,信息运维已经成为信息服务的重要组成部分之一。传统的人力手工运维方式,存在工作烦琐、效率低下、人员要求高、出错率高、面对异常难以快速恢复等缺点。单靠人工已经无法满足在技术、业务、管理等方面的要求,自动化运维管理的技术越来越被人们所重视。本文所研究的内容是针对作者参与实现的自动化运维管理系统而编写的,项目组针对用户的业务需求和特点,分析并开发出一套自动化运维管理系统,能够综合管理各厂家设备、业务,可以快速规划、配置网络,对各种设备的运行状态、系统性能、设备故障进行有效监控和管理。
1概念解析
(1)自动化运维。自动化运维就是把具有高效规律性的工作由系统来进行统一操作,一般来说有应用系统维护自动化、巡检自动化和故障处理自动化这3个方面。自动化运维如今与智能技术有效地相结合,从而达到更好的功能输出。(2)IT运维管理。是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT软硬运行环境、IT业务系统和IT运维人员进行的综合管理。企业将IT部门的职能全部或部分外包给专业的第3方IT外包公司管理,集中精力发展企业的核心业务。简单来说,就是企业在内部专职IT运维人员不足或没有的情况下,将企业的IT外包服务流程,包括全部办公硬件、网络及外设的维护工作转交给专业从事IT运维的公司来进行全方位的维护。(3)生产作业计划。生产作业计划是生产计划工作的继续,是企业年度生产计划的具体执行计划。它是协调企业日常生产活动的中心环节。与生产计划相比,生产作业计划具有计划期短、计划内容具体、计划单位小3个特点。它的主要任务包括生产作业准备的检查、制定期量标准、生产能力的细致核算与平衡。
2自动化运维管理系统故障处理机制的设计与实现
2.1故障数据分析
故障处理的核心是对故障数据的分析。数据分析是对数据的一种操作手段,用适当的统计分析方法对收集到的数据进行处理与分析,提取有价值的信息,通常都是得到一个指标统计量结果,如总和、平均值等,将这些指标数据与业务结合进行解读,发挥出数据的价值与作用。通过对数据的分析提取,可以对将来的趋势和行为进行预测,运维管理系统可以在故障发生之前,提供预警信息,结合策略管理,帮助人们做出科学的决策,使得系统和业务得以持续性稳定运行。对于大量采集的原始数据,需要进行以下步骤的预处理:首先剔除异常环境下产生的流程不完整的数据;然后依据故障现象和设备类型,完成对数据的划分分类;接下来需要量化故障信息,针对故障设备、故障原因和排查情况进行数据转化;最后,对故障现象进行建模、关联、挖掘。通过以上步骤,能够在大量数据中提取故障的关键要素信息,然后进行分析统计。
2.2维护监测自动化
维护监测自动化主要包括异常事件自动化处置、配置变更自动化监测和故障自动化诊断,从而提高运维效率降低运维成本。异常事件自动化处置需要建立一个事件处置知识库并与“运维”工具进行联动执行。当异常事件发生时系统通过事件特征类型的比对查找出对应的解决方案,再调用关联的“运维”工具执行解决方案,从而减轻“运维”人员的负担和缩短异常事件的处理时间。配置变更自动化监测需要建立配置管理数据库,对各类资产的配置进行实时监测并自动对配置管理数据库的数据变化进行监测记录。同时配置变更自动化管理,需要对监控规则进行定义,定期执行监控任务采集系统的配置信息,对配置变更的情况自动生成待办任务,通过与历史版本的对比分析将配置变更的影响范围和依赖关系展示出来。故障自动化诊断需要建立一系列的故障诊断处理策略,故障监测系统实时收集系统的日志信息,然后依据故障诊断策略对信息进行分析处理,并自动根据处理策略判断故障问题提供处理方案。故障诊断通常通过对日志信息分析进行判断,因此要实现故障自动化诊断,就要实现对系统日志的自动化收集和分析,并通过策略关联处理方案自动执行,从而实现对故障的自动化诊断处理。
2.3故障预警
本系统建立故障预警机制,对同一种设备故障按照故障部件和影响程度对故障进行分级管理,建立不同故障等级的应急处理机制,对故障提供精准、丰富的故障预判信息。在故障发生前为用户提供决策依据,以阻止更大的连续性故障的发生,使故障从被动反应到可以主动预防。对设备性能及其他参数实现了测量阈值的监控,
文档评论(0)