曙光4000a可用性测量与应用可完成性计算.doc

下载文档

1
0
约7.42千字
约 7页
2017-02-12 发布于天津
举报
版权申诉
保障服务

曙光4000a可用性测量与应用可完成性计算.doc

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

曙光4000a可用性测量与应用可完成性计算

曙光4000A可用性测量与应用可完成性计算* 由渊霞1，2 孟丹1 薛刚3 1（中国科学院计算技术研究所国家智能计算机研究开发中心北京 100080） 2（中国科学院研究生院北京 100039） 3（上海超级计算中心技术支持部上海 201203）通信作者：由渊霞，yyx@ncic.ac.cn 摘要：本文介绍了对大规模计算系统曙光4000A进行可靠性与应用可完成性评价的工作。文中介绍了在生产型系统中收集分析数据的方法，建立了可用性和可完成性模型，最后给出曙光4000A的可用性与应用可完成性指标计算结果。关键字：大规模计算系统，可用性，应用可完成性 Evaluation of Availability and Application Achievability in Dawning4000A Abstract: This is an evaluation work on the availability and application achievability of Dawning4000A. This paper introduces the method to collecting and analyzing error data in productive environment, and established the availability and achievability models. The availability and application achievability of Dawning4000A are calculated based on this model and collected error data. Keywords: Large-scale Computing System, Availability, Application Achievability引言大规模计算系统的可靠性测量与评价，是一项十分重要的工作，对于评价机群质量，指导后续提高可靠性的工作，以及构建更大规模的系统，具有极大的意义。然而近年来，大规模生产型计算系统的可靠性测量评价工作明显不足。随着计算系统规模的不断增大，应用需求的不断提升，迫切需要研究现有生产型系统的可靠性。除此之外，用户也越来越关心大规模计算系统的另一项指标，即，应用在特定系统，特定配置下，能够在一定时间内正确完成的能力。定义为应用可完成性。这项指标目前研究的比较少，且缺乏适当的评价模型。评价大规模计算系统的可靠性、可用性与应用可完成性，主要工作包括：通过可靠通信机制实现可靠性数据的收集，建立可靠性数据库并对数据进行有效分析，建立可靠性评价模型，描述应用的特征，建立应用可完成性计算模型，推导可靠性估算公式，计算节点、整机可靠性和应用可完成性，描述可靠性随着系统配置不同而变化的规律等等。本文在528节点规模的曙光4000A系统上，建立了故障和可靠性数据收集系统，计算了大规模计算系统的可用性，揭示了应用可完成性的规律。计算过程中使用到的基本参数如下： n：所有节点个数 k：状态为活动的所有节点个数 λ：失效率，一般远小于0.01% μ：修复率，一般远大于99.99%。机群可靠性测量环境的建立概述可靠性数据收集系统建立过程从2005年6月1日至2005年8月1日。目标系统是安装于上海超级计算中心，并进行正常生产运行的曙光4000A。其节点规模为，正常运行的计算节点448个，存储节点16个，备用节点64个。因为系统软件可根据用户的需要进行选择，因此本研究只考虑硬件故障的情况。由于要从生产型系统中收集数据，在充分考虑用户利益的前提下，所使用的方法应该遵循以下原则：系统变更最少在网络带宽、IO能力等方面，对用户应用的性能影响最小保证在某些节点出现故障时收集到尽可能多的故障前数据可靠性数据测量平台的建立方法基于以上原则，我们选用Linux操作系统中已有的SYSLOG机制，并进行最简单的配置。方法如下：根据节点逻辑分区和应用部署分区的具体情况，选择一个或多个分区作为可靠性日志采集的对象（称为客户机），并采用百兆管理网络作为SYSLOG的传输网络，这样将不会影响到计算节点对存储节点的访问再选择一个管理节点或任务不算重的节点作为日志服务器logserver 对这些客户机和日志服务器进行时钟同步在logserver上运行install.client脚本，向待收集日志的所有客户机中的syslog.conf中增加*.warning @logserver，并重新启动客户机的syslogd 用远程方式启动日志服务器上的syslogd 以上是可靠性数据搜集的初始化阶段。在系统运行过程中，我们还应该进行以下工作：每天用logr