- 1、本文档共59页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
诊断与容错技术1new.ppt
容错技术与诊断技术 课程性质:计算机专业选修课 前修课程:组成原理、操作系统 南京航空航天大学信息学院 钱忠民 qzm_mail@nuaa.edu.cn 第一章 容错系统概述 第二章 可靠性的基本知识 第三章 可靠性的分析方法 第四章 冗余技术 第五章 马尔可夫模型分析法 第六章 软件容错技术 第七章 容错系统设计和典型的容错系统介绍 第八章 故障诊断技术 第一章 容错系统概述 第一节 可靠性是计算机系统的重要性能 指标 一般讲到计算机性能指标时往往只考虑: CPU功能: ·速度(如:主频) ·指令系统(包括CPU寄存器) ·寻址能力(寻址空间) ·存储系统: Cache、主存容量、组织方法、管理机构 ·外设配置和采用的总线等 但是,随着计算机应用领域扩大出现了许多对可靠性有特殊要求的应用领域,对这些系统来说,可靠性是极其重要的性能指标。 例如: 1:工业、交通、航空: 飞行控制计算机,一旦故障,有可能造成机毁人亡的严重后果 要求在10-20小时飞行任务期间内失效的可能性低于10-9 工业控制: 如:核电站、化工厂的过程控制。 如控制失灵会造成重大事故。 交通: 如:铁路运输中的信号系统 通讯: 如程控交换机等 2。商业、金融 对信息的安全可靠有极高要求 3。长寿命、高可靠 应用 ·航天:人造卫星的通讯控 制如:美国的STAR系统(Self Test and Repair)保证在十年中可靠运行的时间≥95%,只允许短暂的停顿(比如几分钟) 这些领域对计算机的可靠性提出在正常条 件下难以达到的要求。 比如,市售的成品计算机的可靠性指标:MTBF(平均故障间隔时间)为300-10000小时。在10小时内可靠度仅0.997-0.999(故障可能为3×10-3→1×10-3)。在运行10000小时时候,可靠运行的概率仅0.368左右 第二节 容错技术与非容错技术 提高可靠性的方法有两种: 1。非容错方法(避错技术) 避错方法是保证可靠性的主要和基本的方 法。它采用预防为主的手段。 硬件措施: ·严格地进行元件筛选、老化处理 ·采用成熟技术,防止设计错误 ·严格遵守加工工艺如:制板、装配、调试 ·在保证功能、性能要求前提下采用最简单的设计方案 ·降负荷运行。比如:降低主频、降低通讯线的数据传输率 ·改善运行环境:空调、防震、防尘、防潮 软件措施: ·模块化、结构化程序设计 ·完善的、规范的文档资料 ·严格的调试 避错方法是保证系统可靠性的基础,也是必不可少的手段。但是单靠避错方法不能达到上述高可靠性指标,这是因为: 1)元件质量受当时工艺水平限制, 在一个时期只能达到一定水平。 比如50年代计算机采用电子管为主要元件,其平均寿命为800小时。采用特殊工艺可达1500-2000小时,此时价格已高出常规价格几十倍。 当时计算机采用18000只电子管,平均每小时有9-12个管子损坏。 2)设备的可靠性随复杂性增加而降低。 复杂的设备使用的器件种类和数量都多,不可避免有较高的故障率。而随着计算机应用范围的不断扩大,系统复杂性日益增加。可靠性问题也日趋严重。 要获得高可靠的系统,还必须在系统结构上想办法,使系统具有抵抗故障的能力,因而产生了容错设计的方法 2. 容错方法 : 正如采用预防为主的方针后仍需要医院一样,象计算机系统这样复杂的系统不可避免有故障发生。 对有高可靠性要求的应用系统来说,必须有在故障发生时仍保证系统正常工作的手段,这就是容错的手段。 容错能达到常规方法所不能达到的高可靠性 例如:美国70年代研制的FTMP系统和SIFT系统能保证在10小时飞行任务期间,可靠度高于0即108架次飞行(每次10小时)飞行计算机失效的可能不到1次 容错计算机系统:在发生故障或存在软件错误的情况下仍能继续正确完成指定任务的计算机系统。 设计与分析容错计算机系统的各种技术称为容错技术 容错技术从系统结构出发来提高系统的可靠性,与排错技术相互补充,构成高可信度的系统 实现容错计算的四个方面 (1)不希望事件的检测。不希望事件是指失效、故障、差错等等。为容忍系统中的不希望事件,应首先对其进行检测。 (2)损坏估价。由于一个故障的出现和它的失效结果之间可能存在延迟,故障可能已经传播到该系统的其他地方,导致故障的扩大。因此,在作出一个被检测的故障有关的决定之前,有必要判定系统已被破坏的程度,这依赖于系统设计者的策略和已有的探测技术。 (3)不希望事件的恢复。在不希望事件检测和损坏估价之后,应采用不希望事件恢复技术,把目前的错误系统状态转换成一个正确的系统状态。 (4)不希望事件处理和继续服务。确
您可能关注的文档
最近下载
- 浙江省9 1高中联盟2022-2023学年高一上学期11月期中考试英语试题.docx VIP
- 工程造价专业中级职称理论考试题库-建设工程专业中级职称理论考试题库.docx VIP
- 【古文】文言文阅读之字词课件-六年级语文部编版.ppt
- 建筑结构专业中级职称理论题库-建设工程专业中级职称理论考试题库.docx VIP
- 锅炉操作工(初级工)职业鉴定理论考试题及答案.doc VIP
- 给排水专业中级职称理论考试题库-建设工程专业中级职称理论考试题库.docx VIP
- 圣诞节英文介绍课件.ppt
- 燃气工程专业中级职称理论考试题库-建设工程专业中级职称理论考试题库.docx VIP
- 麻醉科应急预案及流程.docx
- 2015传统民居与乡土建筑调研报告.doc VIP
文档评论(0)