客户案例:高性能、大规模、高可靠的AIGC承载网络.docx

客户案例:高性能、大规模、高可靠的AIGC承载网络.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

客户案例:高性能、大规模、高可靠的AIGC承载网络

客户是一家AIGC领域的公司,他们通过构建一套完整的内容生产系统,革新内容创作过程,让用户以更低成本完成内容创作。

客户网络需求汇总

RoCE的计算网络

RoCE存储网络

1.不少于600端口200G以太网接入端口,未来可扩容至至少1280端口

1.不少于100端口200G以太网接入端口,未来可扩容至至少240端口

2.全网无收敛(1:1收敛比),全线速交换

2.带宽收敛比不大于3:1

3.支持RoCE实现无损以太网

3.支持RoCE实现无损以太网

整网方案设计的思路

高性能

AIGC承载网络需要具备高宽带的特性,以支持快速的数据传输和处理。生成内容可能涉及大规模的文本、图像或视频数据,因此需要具备高带宽的网络连接,以便快速传输数据到计算资源节点进行处理;此外,AIGC承载网络需要实现低时延的要求,以确保生成内容的实时性和响应性。在用户上传任务或请求后,网络需要迅速响应并进行任务分配或资源调度。

大规模

AIGC承载网络需要能够处理大量的用户请求和任务,并同时支持多个用户的并发访问。因此,网络架构需要具备高度的可扩展性和负载均衡能力。例如,采用分布式计算和分布式存储技术,使得网络可以横向扩展,自动调节资源分配以应对不断增长的用户需求。

高可用

AIGC承载网络需要具备高可用性,以确保服务的连续性和稳定性。由于AIGC是基于人工智能技术的,其生成过程可能需要较长的时间和大量的计算资源。因此,网络需要具备容错机制和故障恢复策略,以应对硬件故障、网络中断或其他意外情况。

整体方案架构

计算网络设计方案一:整网1:1无收敛

不考虑GPU的8个接口的接入方式,8个接口接入1台或多台ToR

交换机10Leaf+20ToR=30台,提供640个接入端口(20*32=640),每台GPU服务器8端口,可以最大可接入GPU服务器80台

接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧600条,Fabric侧600条,合计1200条

方案一的扩展性

基于该架构,最多可以接入64台ToR,最大可以扩展到2048个200G接口接入,满足1280接口接入的扩展性要求

计算网络设计方案二:整网1:1无收敛

考虑GPU的8个接口的接入方式,8个接口接入到8台Leaf,每8台Leaf作为一个分组

交换机13Leaf+24ToR=37台,按600个接入端口(75台GPU服务器),每组8个ToR接入25台GPU服务器,3组ToR接入75台

每组ToR接入25台GPU服务器,下行接入带宽为200*200GE,因此,上行也需要至少是200*200GE带宽,每台ToR到每台Leaf为2条200G,总上行带宽为2*13*8*200GE,满足1:1收敛要求

接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧600条,Fabric侧624条,合计1224条

方案二的扩展性

基于该架构,最多可以接入8组ToR,每组8个ToR接入32台GPU服务器,8组ToR接入256台

最大可以扩展到2048个200G接口接入,满足1280接口接入的扩展性要求

存储网络设计方案:整网3:1收敛

交换机2Leaf+3ToR=5台,提供最大144个接入端口(满足100个接入需求)

如果不考虑Leaf高可靠部署,也可以单Leaf接入

接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧100条,Fabric侧36条,合计136条

存储网络扩展性

交换机2Leaf+5ToR=7台,提供最大240个接入端口(满足240个接入的扩展需求)

星融元方案价值与优势

??超低TCO、超高性价比

相较于IB方案,大幅度降低用户的网络TCO,同时确保超高性能

??横向平滑扩容、1:1收敛无阻塞

无收敛的网络设计确保无阻塞的大容量网络,按需横向扩展

??整网RoCEv2

基于CEE/DCB能力,提供可与IB媲美的性能和同样无损的网络服务

??开放网络操作系统

星融元网络操作系统AsterNOS,SONiC企业级发行版,支持灵活的功能扩展、在线升级

??无缝对接云管

AsterNOS利用简单易用的RESTAPI,可轻松让第三方的云平台/控制器快速纳管

文档评论(0)

舒奇特 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档