- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
行业专题报告/
内容目录
1DeepSeek开源周:更大的吞吐,更低的延迟,更极致的性价比3
1.1开源周第1天:FlashMLA,专为Hopper打造的高效MLA解码器3
1.2开源周第2天:DeepEP,首个为MoE量身定制的灵活GPU资源控制通信库5
1.3开源周第3天:DeepGEMM,直面AI计算中最频繁的矩阵乘法7
1.4开源周第4天:优化并行策略,提升训练速度与资源利用率8
1.4.1DualPipe:创新双向流水线并行算法8
1.4.2EPLB:优化专家并行架构训练效率9
1.4.3深入分析V3/R1模型中的计算与通信重叠机制,便于开发者理解和优化10
1.5开源周第5天:3FS,DeepSeek数据访问推进器11
2OneMoreThing:DeepSeek-V3/R1推理系统实现大模型推理545%理论成本利润率13
3DeepSeek开源六连击,尽显极客风采16
4投资建议17
5风险提示17
图表目录
图1.FlashMLA示例代码3
图2.DeepSeek-V2中MLA4
图3.MoE示意图5
图4.H800上测试基于纯RDMA低延迟内核6
图5.标准DeepGEMMvs.MoEDeepGEMM7
图6.DualPipe调度示例9
图7.EPLB两层混合专家(MoE)模型示例9
图8.训练和推理框架的分析数据11
图9.GraySort基准评估smallpond12
图10.DeepSeek在线推理系统示意图14
图11.24小时内用于推理服务的H800节点计数14
图12.大模型推理理论成本利润率计算过程15
图13.24小时内DeepSeek-V3/R1推理服务的成本和理论收入15
图14.FlashMLA中的内联PTX16
2
行业专题报告/
1DeepSeek开源周:更大的吞吐,更低的延迟,更
极致的性价比
DeepSeek开源周圆满落幕,覆盖全链路技术环节,惊喜连连。在2月21日的开
源周预告之后,DeepSeek如约在2月24日至28日进行了为期5天的“技术轰炸”,
开源了5大代码库,覆盖训练、推理、通信、负载均衡以及数据加速的全链路,
惊喜连连。
1.1开源周第1天:FlashMLA,专为Hopper打造的高效MLA解码器
发布FlashMLA,高效处理变长序列,优化内存管理,榨取极致性能。DeepSeek
在开源周首日发布了FlashMLA技术。FlashMLA是DeepSeek专为英伟达Hopper
GPU开发的高效MLA(多头潜在注意力,Multi-headLatentAttention,简称MLA)
解码内核,特别针对变长序列进行了优化,目前已正式投入使用。当前发布的功
能包括对BF16精度的支持(保留关键精度并兼顾速度)和块大小为64的分页KV
缓存(优化内存管理)。经实测,在H800SXM5平
文档评论(0)