网站大量收购闲置独家精品文档,联系QQ:2885784924

AI算力行业跟踪深度:辨析ScaleOut与ScaleUp,AEC在光铜互联夹缝中挤出市场的What、Why、How.docx

AI算力行业跟踪深度:辨析ScaleOut与ScaleUp,AEC在光铜互联夹缝中挤出市场的What、Why、How.docx

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

我们认为AEC是AI计算时代ScaleUp需求被放大后的新兴技术方向,与ScaleOut光互联并不构成需求的“零和游戏”,后续有望在柜

间、柜内、ToR层互联中继续渗透:

1、绪论:如何辨析ScaleOut与ScaleUp网络?ScaleOut网络实现集群内(Cluster,如万卡、十万卡集群)所有GPU卡互联,亮点在于网络内连接GPU数量大,与传统数据中心网络类似,ScaleUp网络实现超节点内(SuperPod,如NVL72)所有GPU卡互联,亮点在网络内单卡通信带宽高,为AI算力场景下并行计算、内存墙等瓶颈催生出的新兴需求;

2、What:DAC、AEC、AOC是什么?1)DAC、AEC都是铜连接,DAC无源(没有信号处理芯片)、AEC有源(有信号处理芯片),

AOC是有源光连接;2)信号传输的核心部件与原理不同导致三类连接方式的功耗、距离、成本成倍递增;

3、Why:为什么AEC在DAC、AOC的夹缝中挤出空间?1)光进铜退已经发生于ScaleOut网络:由于传输速率、距离均不断提升,光几乎已占据ScaleOut所有互联场景;2)能用铜的场景就只会用铜不会用光:当前铜在10m以内高速连接仍可使用,因此光模块、CPO尚无法替代此场景;3)ScaleUp互联GPU数量少距离近,10m以内铜连接或可全覆盖,并不构成对光互联空间的侵蚀;4)距离、尺寸等差距导致铜缆内部有源(AEC)进无源(DAC)退;

4、How:AEC在算力网络侧如何部署、前景如何?1)目前AEC主要用在ScaleUp的柜间连接,如目前亚马逊Trn2-Ultra64使用AEC柜间互联,ASIC芯片与AEC配比为1:1;2)AEC与ASIC两者的兴起有相关性而非因果性,其底层逻辑是计算与通信的再解耦:云厂使用ASIC或英伟达HGX等,而非英伟达DGX方案时,完全来自英伟达的计算+通信方案也随之解耦,云厂便可以自主选择使用AEC;3)AEC还可以向柜内与ToR层渗透:假如英伟达GB200NVL72/8柜内换用AEC,一枚B200对应4.5支等效1.6TAEC,假如亚马逊Trn2-Ultra64柜内换用AEC,一枚Trainium2对应约3支800GAEC,决定配比的关键因素仍为单卡带宽及交换机层数;假如AEC参与ToR层连接,和算力卡配比为1:1;4)与DAC产业链中连接器品牌方是最核心环节不同,Retimer芯片供应商+品牌方变为AEC产业链中主导方;

投资建议:1)AEC有望在ScaleUp兴起的趋势下获得越来越多的市场空间:关注兆龙互连,博创科技,推荐中际旭创,关注澜起科技;2)ScaleUp有望带来新的交换机需求:推荐盛科通信,关注锐捷网络,紫光股份,中兴通讯;3)“光退铜进”并未发生,光模块市场需求基本未被动摇:推荐中际旭创,天孚通信,关注新易盛。

风险提示:算力互联需求不及预期;客户开拓与份额不及预期;产品研发落地不及预期;行业竞争加剧。

1

绪论:如何辨析ScaleOut及ScaleUp网络?What:DAC、AEC、AOC是什么?

Why:为什么AEC在互联场景中挤出应用空间?

How:AEC在算力网络侧如何部署、前景如何?

投资建议

投资建议

风险提示

2

1.绪论:如何辨析ScaleOut与ScaleUp网络?

3

资料来源:

资料来源:Marvell,东吴证券研究所

4

超节点内

ScaleUp

集群内

ScaleOut

若干超节点(SuperPod,如NVL72)组成集群(Cluster,如万卡、十万卡集群);

ScaleOut网络实现集群内所有GPU卡互联,亮点在于网络内连接GPU

数量大,与传统数据中心网络类似;

ScaleUp网络实现超节点内所有GPU卡互联,亮点在于网络内单卡通信带宽高,为AI算力场景下新兴的网络架构。

(由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流)

ScaleOut与ScaleUp网络对比

ScaleOut网络与ScaleUp网络 (NVL72+CX-8网卡+三层Quantum-X800IB网络)

最大GPU数(张)

单卡带宽(Gb/s)

ScaleOut

746496

800

ScaleUp

72

7200

AI训推需要分布式并行计算,基于对计算效率不断提升的追求,并行计算方式有数据并行(DataParallelism)、流水线并行(PipelineParallelism)及张量并行(TensorParallelism)。

数据并行:将输入数据分配给各个负载,各负载上基于不同数据进行同一模型的训练/推理;

流水线并行:将模型分为若干层分配给各个负载,各负载分别进行不同层

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档