深度学习训练与推理平台需求说明.pdfVIP

深度学习训练与推理平台需求说明.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

深度学习训练与推理平台需求说明

1.货物名称:深度学习训练与推理平台

数量(单位):1套

(一)采购标的需实现的功能或者目标,以及为落实采购政策需满足的要求:

1)管理平台:缺乏统一的资源管理平台,需要一套机器学习平台产品化,

提高模型生产效能,需要数据处理平台来满足项目研究。

2)计算机视觉开发环境:用于AI研究和实验的计算资源紧张,需要一套

智算融合平台等同时还缺乏先进的软件工具和开发环境,使学生和研究人员能

够进行高效的AI研究和开发。

3)大模型训练:如今主流大模型训练输入参数都是数十亿输入参数级别对

高速缓存和GPU显存提出了更高的要求,经过测算760万亿计算能力才可满足

近2年需求。

4)并行性需求:在进行大模型训练时,通常遇到并行计算的需求。这可能

涉及到并行处理框架,如TensorFlow、PyTorch多机多卡并行计算提高训练求

解速度。

5)模型部署:解决大模型训练完成后如何部署和应用于具体的问题。

(二)采购标的需满足的质量、安全、技术规格、物理特性等要求(技术指标

要求):

产品功能总体要求:部署一套深度学习训练与推理平台,主要包含数据处

理功能、离线在线数据处理功能、平台管理与多用户作业队列管理功能、用户

资源配额管理功能。必须承诺配合我院日常科研工作需要对工作人员/学生提

供培训,包括但不限于:系统使用、日常任务提交等。

系统部署平台搭建要求:对平台系统、操作系统、并行环境、编译器、数

学库、应用软件、自动化运行脚本等提供培训及安装服务,商业软件协助安装。

提供系统使用、管理和维护培训,经培训后,用户应能够熟练掌握系统与使用

应用软件、维护工作并能及时排除大部分的硬件和软件系统故障。

深度学习训练与推理平台配置要求如下:

1)整套系统包含3个计算队列,同时交互使用,开机即用。整套系统CPU

核心数不低于192核心,不低于384线程。主频不低于2.6GHz,整套系统缓存

不低于11T,系统支持不低于3队列的同时处理,单套队列不低于768GB的内

部存储,整套系统提供不低于760万亿次每秒的计算能力。

2)数据存储支持后续横向扩展,性能随节点数量的增加而近线性增加,支

持多控制器自动负载均衡;同时支持横向扩展和纵向扩展;支持在不停机情况

下,通过向存储系统中增加存储节点的方式实现扩充容量和性能,保证业务不

中断;所有节点可组成一个完整的文件系统,应用可通过任意节点,访问文件

系统内的数据;支持数据冗余校验编码N+M(M=1,2,3),防止数据静默失效;

支持NFS、CIFS、等协议和POSIX并行文件系统客户端方式存取数据;支持文

件系统挂载动态负载均衡;支持高优先级客户端,允许对高优先级客户端支持

IO高优先级调度;支持SSD为元数据操作加速,无论后端读写IO负载和HDD

的负载如何,元数据操作响应速度不受影响;支持配额管理功能,支持目录级

配额,防止部分用户大量占用存储空间;支持并提供功能全面的图形化GUI管

理软件,支持Web或其它图形化方式进行远程管理,配置以及可视化系统结构

图。支持各个模块直接通信。支持集群管理员、分区管理员、项目管理员、普

通用户多级多角色管理;不同的角色具有不同的访问权限。平台支持AI+HPC

功能授权,用户可以使用AI和HPC所有功能。

3)支持平台管理员、分区管理员、项目管理员、普通用户多级多角色管理;

不同的角色具有不同的访问权限。

4)支持用户组创建、删除、编辑、将用户加入或移出用户组。

5)支持用户创建、删除、用户组分区、存储卷和资源配额设定。

6)支持按照分区划分平台资源,分区可以关联不同的数据卷、设置资源配

额。

7)支持公共镜像、分区镜像、项目镜像、私有镜像多层级镜像管理。

8)提供镜像仓库,用户可下载到自己目录后直接使用,无需调整。

9)用户私有镜像之间、分区镜像之间、项目镜像之间进行隔离,没有共享

情况下无法访问。

10)支持用户间分享私有镜像、项目镜像、分区镜像,支持定义分享深度。

11)提供Tensorflow、PyTorch、MxNet、CUDA、Gromacs、NAMD、LAMPPS

主流版本镜像,用户可以下载到平台中使用。

12)支持Tensorflow、PyTorch多机多卡分布式训练用

文档评论(0)

151****8130 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档