用适配的曙光高性能计算解决方案.pptx

用适配的曙光高性能计算解决方案.pptx

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
与应用适配的曙光高性能计算解决方案曙光信息产业(北京)有限公司高性能计算方案部 李斌高性能计算平台什么最重要?高通量并发提高求解精度多线程并行MPI并行计算密集型提高任务吞吐量网络密集型扩大求解规模计算?软件?存储?数据密集型减小求解时间物理访存密集型管理?化学大内存需求网络?卫星遥感众核计算CAE/CFD金融计算渲染气象电力仿真材料石油勘探生命科学高性能计算平台什么最重要?应用资源需求计算平台计算Regular网络Heavy!存储Easy!能够与应用适配,才是“好”的高性能计算平台高性能计算平台什么最重要?应用资源需求计算平台计算Regular网络Heavy!存储Easy!“好刀要用在刀刃上”,否则是废铁一块高性能计算平台什么最重要?应用资源需求计算平台计算Regular网络Heavy!存储Easy!木桶效应——避免盲目投资HPC应用需求分析——物理化学材料HPC应用需求分析——生命科学HPC应用需求分析——CAE工程计算HPC应用需求分析——气象海洋环境 气象、气候模式: MM5, WRF, GRAPES, AREMS, LAPS, ARPS, T106, CCSM3, CESM et al. 海洋模式: ROMS, HYCOM, FVCOM, POP, ECOMSED, ECOM, MOM4, MITgcm, FGOALS et al. 大气环境模式: CMAQ, Smoke, WRF-Chem, CAMx et al.滩涂浅海HPC应用需求分析——石油物探地震资料采集地震资料处理(数据的反演计算:叠前时间偏移、逆时偏移等),计算量巨大并行计算数据交互少,网络压力不大,扩展性好GPGPU深度应用IO密集,分布式并行存储需求地震资料处理地震资料解释HPC应用需求分析——遥感、天文高能物理天文遥感最典型的数据密集型应用HPC中的大数据海量存储需求数据并行取代计算并行聚合IO带宽性能很重要HPC应用需求分析——高通量计算传统HPC通过并行计算缩短单任务计算时间,提高计算规模和精度(紧耦合并行计算任务)高通量计算HTC,侧重于提高计算任务的吞吐量,单个任务多为串行(海量的松耦合技术任务)单个处理单元的性能很重要,但处理单元的数量更为重要!钞票印刷错误筛查电网输电线路暂稳态分析曙光高性能计算解决方案框架HPC应用:物理、化学、材料、生命科学、CAE、气象、海洋、环境、遥感、天文、高能物理、石油物探、动漫渲染、金融…应用软件层应用Web Portal作业调度软件HPC基础软件环境集群监控管理软件基础软件层集群功能节点通用计算节点胖节点协处理器节点存储系统硬件资源层计算网络监控管理网络网络安全机房基础设施:机房、机柜、配电、空调等基础设施层计算系统通用计算节点双路计算节点为主计算密集、非大内存需求、具有一定扩展性的MPI并行程序大规模串行计算程序众核加速节点多路胖节点GPGPU/Intel Xeon Phi针对支持协处理加速的应用四路、八路计算节点大内存需求应用程序扩展性一般的多线程并行程序本地磁盘IO较高的应用程序计算节点形态的演变网络系统——监控管理网络热点阻塞阻塞阻塞阻塞阻塞阻塞网络系统——计算网络根据应用的网络通信密集程度选择带宽敏感大数据包为主延迟敏感小数据包为主选择的标准是什么?高性能高可靠性高可扩展性ParaStor200并行存储系统自动负载均衡数据分布化简易管理存储系统如何解决HPC集群全局共享存储的性能和扩展性问题?——分布式并行存储系统性能:多个IO通道,提高聚合带宽针对IO密集应用,条带化提高单流IO性能扩展性:元数据和数据分离,消除瓶颈自动负载均衡,容量和性能线性增长在线扩容,不中断应用高可靠性:多活冗余的元数据控制冗余的数据网络,数据多副本或N+M校验无单点故障、保障数据安全性价比:使用通用、廉价设备构建高可靠的存储系统分级存储,区分冷热数据,优化成本集群监控管理软件全面的集群的运行状态实时监控,包括设备状态、存储监控、机房基础设施监控等监控各主要故障点信息;故障阈值设置,定制监控策略;短信、邮件等告警方式Gridview一目了然防患未然集群监控告警管理系统快速部署用户信息统一管理集群系统服务统一管理远程KVM、IPMI智能一键开关机集群运行状态的统计报表功能预定义和自定义形式生成集群运行状况报表轻松管理分析决策报表系统集群管理作业调度软件系统管理员的需求?使用用户的期望?丰富的调度策略,提高资源利用率异构资源的调度用户的充值、计费管理超算中心简单易用,避免命令行操作,针对应用的Web封装,应用参数方便关联选择方便查看权限和余额,可以在线申请商业软件license调度工程计算错误检查:资源是否超限?输入文件检查作业抢占、资源预留气象石油作业状态变更通知、作业运行状态追踪,作业输出方便查看作业关联关系、作

文档评论(0)

lflebooks + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档