南京大学大型高性能计算集群平台建设研究.docx

南京大学大型高性能计算集群平台建设研究.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

南京大学大型高性能计算集群平台建设研究

?

?

游伟倩盛乐标张予倩

摘要:2016年,南京大学高性能计算中心新建了一套大规模高性能计算集群系统。本文详细阐述了该套大型高性能计算集群系统的搭建过程。该套集群的各项存储以及Linpack测试结果,皆表明南京大学高性能集群系统的优良性能。

关键词:高性能计算集群建设Linpack测试系统测试

:G642:A:1674-098X(2018)02(a)-0126-02

高性能计算(HighPerformanceComputing,HPC)主要致力于开发超级计算机,提高并行计算效率。高性能计算集群主要用于处理复杂的科学计算问题。近些年,高性能计算发展非常迅速[1-6],高性能计算涉及的领域越来越宽广,由此各地的高性能计算机群也应运而生[7-10]。南京大学高性能计算中心[11]自2010年成立以来,先后搭建两套高性能计算机群。第一套IBM刀片集群于2009年建成,集群总的计算节点有402个,总计3216个核。由于这套设备不足以满足校内科研用户的计算需求。

1Flex集群硬件配置

由南京大學Flex集群系统拓扑图见图1,该系统包含:

(1)管理节点配置:1台管理节点,负责系统的软硬件管理和系统部署,所配的型号为x3650M5。

(2)作业调度节点配置:三台x3650M5的作业调度节点,作业调度节点运行PlatformLSF作业调度系统,其中一个节点运行PlatformLSF的主调度程序,另外两个节点运行LSF从调度进程,三个节点组合保证了调度系统的高可用。

(3)登陆节点配置:4个联想Flexx240M5登录节点,负责所有用户登录集群,进行源文件的编辑、编译以及提交作业使用。

(4)计算节点配置:总计910台LenovoSystemFlexX240M5刀片节点,共21840个CPU核,总CPU计算能力达873Tflops。可以满足大规模科学计算需求。

(5)其他硬件配置:KVM系统,本系统通过一套LCM8KVM系统作为系统安装调试的显示。因为所有节点IMM管理接口都接入到硬件管理网络,所有刀片节点和机架节点通过IP管理和访问。显示系统,本系统配置1台笔记本电脑,作为系统管理的显示端。还配置大屏幕显示器2台,型号为于SonyKDL-75W850C,壁挂安装。机柜,本系统配置满足系统使用的42U机柜和相对应的PDU模块及相关线缆。

2Flex集群软件配置

本中心接入校园万兆光纤至交换机,2条万兆线路接入登录刀片中心交换机。通过登录节点登录集群,集群软件配置如下。

(1)操作系统:本系统操作系统为RedHatV6.7。

(2)并行文件系统:本系统配置的并行文件系统为GPFS,GPFS是一种专门为群集环境设计的高性能、可扩展的并行文件系统。GPFS可以在群集中的多个节点间实现快速存取,为HPC系统在多节点实现单一的文件名空间和文件系统之间实现性能扩展和故障恢复。

(3)作业管理系统:IBMSpectrumLSF作业调度软件10.1.0.0。采用LSF作业调度系统进行调度管理,可以合理分布资源,除了一般的作业管理特性外,它还在负载平衡、系统容错、系统监视等方面发挥重要的作用。

(4)编译软件:目前Flex集群系统上已经安装的编译软件有IntelCversion17.0.1.132、IntelFortranversion17.0.1.132、gccversion4.4.7、gccversion4.9.4、gccversion5.4.0、openmpiversion1.10.1、openmpiversion2.0.1(intel编译器编译)。

(5)IBMSpectrumLSFRTM系统,该系统是面向IBMSpectrumLSF的一个管理系统,可以全面监控、报告和管理工作负载。

(6)LICO集群管理监控软件:可以利LICO监控界面查看整个集群的状态显示。

(7)LDAP用户管理软件:可以通过ldapadmin图形化工具及openldap命令两种方式进行管理。

3Flex集群性能测试结果

3.1ESS存储iozone性能测试

iozone是一个文件系统的benchmark工具,可以测试不同的操作系统中文件系统的读写性能。Flex集群ESS存储聚合带宽性能测试结果如表1:单位:(GB/s)

3.2SSD存储iozone性能测试

同SSD性能测试一样,ssd存储存储聚合带宽性能测试结果如表2,15台IOserver测试结果如下:单位:(GB/s)

3.3Flex集群系统Linpack测试报告

硬件环境:计算节点,共有910台IBMFlexSystemx240服务器,每台服务

文档评论(0)

177****2554 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档