网站大量收购独家精品文档,联系QQ:2885784924

AI应用侧深度渗透,驱动国产先进封装技术寻求突破.pdf

AI应用侧深度渗透,驱动国产先进封装技术寻求突破.pdf

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

2025年2月

一、DeepSeek架构上的突破-算法层面解决算力效率问题

DeepSeek从模型的输入处理阶段到计算阶段再到模型的输出阶

段进行深层次优化,显著提升算力效率,使得其在训练阶段以及

推理阶段在保持模型性能的同时,减少冗余计算,从而塑造出更

高性价比模型。

传统Transformer模型的自注意力机制存在显著的计算瓶颈:处

理n长度序列时需构建n²规模的注意力矩阵,导致内存和计算复

2

杂度均呈()增长。以1024长度序列为例,单头注意力矩阵即

需4MB存储,叠加多头多层结构后硬件资源极易耗尽。在推理场

景中,由于需实时逐Token生成文本,重复计算历史Token的键

值数据会引发指数级资源消耗。

DeepSeek通过引入KV缓存机制实现突破性优化:将历史Token

的键值向量存储复用,仅计算新Token的查询向量进行匹配。该

2

策略使推理阶段复杂度从()降至(),大幅减少冗余计算。

KV缓存快速存取,以及更强的并行计算能力处理动态增长的序

列数据,仍对高性能算力芯片吞吐量有一定要求。

请务必仔细阅读本报告最后部分的免责声明曙光在前金元在先

-2-

2025年2月

图表1:WithKVcacheVSwithoutKVcache

数据来源:TransformersKVCachingExplained,金元证券研究所

DeepSeekV2通过Multi-HeadLatentAttention(MLA)技术突

破现有注意力机制瓶颈:传统多头注意力(MHA)需存储完整键值

矩阵,导致KV缓存空间随序列长度线性膨胀。主流改进方案如

MQA(多查询注意力)和GQA(分组查询注意力)虽能降低缓存需

求,但存在显著性能损失——MQA缓存需求最小但精度最弱,GQA

则在缓存与性能间折中。

MLA创新性地引入低秩键值联合压缩:将原始高维键值矩阵映射

至低秩潜在空间,仅需存储压缩后的潜在向量。该方法使KV缓

存空间较MHA减少90%以上(对标GQA水平),同时保持与MHA

相当的性能表现。

请务必仔细阅读本报告最后部分的免责声明曙光在前金元在先

-3-

2025年2月

图表2:MHAvsGQAvsMQAvsMLA

数据来源:DeepSeekV2techreport,金元证券研究所

DeepSeek-V3的混合专家(MoE)架构实现超大规模高效计算

相较于传统Dense模型(如Llama3),DeepSeek-V3作为6710亿

参数的MoE模型,通过动态稀疏计算突破算力瓶颈:每个Token

仅激活约5.5%参数(37B/671B),在保持模型规模优势的同时显

您可能关注的文档

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档