网站大量收购闲置独家精品文档,联系QQ:2885784924

2万字解读与硬核分析DeepSeek V3_R1的架构.pdf

2万字解读与硬核分析DeepSeek V3_R1的架构.pdf

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

陈巍:2万字解读与硬核分析DeepSeekV3/R1的架构

DeepSeek的必威体育精装版模型DeepSeek-V3和DeepSeek-R1都属于MoE(混合专家)架构,并在开源世界产

生了较大的影响力。特别是2025年1月开源的DeepSeek-R1,模型性能可挑战OpenAI闭源的o1

模型。

随着热度的提升,DeepSeek也被大模型行业之外的各路媒体不断提起,“打破CUDA垄断”,“挖了

NVLink的墙角”,“引发英伟达市值大跌”,“证明大模型算力建设浪费”,“算力霸权转移”,

“国运级的创新”,似乎有用皮衣卡住老黄脖子的架势。

那么,从技术和架构的角度深入必威体育精装版的V3和R1模型,是否真的有“国运级的创新”,又有哪些误传?

下面我们从V3与R1的架构分析开始,分层解读DeepSeek的创新。

1V3与R1的主要特征

DeepSeek-R1的模型架构来自于V3,甚至可以说R1是具有推理(Reasoning)能力的V3。下面先分别

分析V3和R1的架构特征。

1.1V3/R1架构特征

DeepSeek-V3是一个混合专家(MoE)语言模型,具有6710亿(671B)参数,其中每个Token(词

元)的计算约激活370亿(37B)参数。这个模型参数量与GPT-4大致在同一数量级。

MoE(MixtureofExperts)是组合多个专家模型提升深度学习模型性能和效率的架构。其核心思

想是通过引入多个专家模型(Experts),每个输入数据只选择和激活其中的一部分专家模型进行

处理,从而减少计算量,提高训练和推理速度。MoE的概念在1991年就已提出,训练不容易收敛

是其在大模型领域应用的主要障碍。

MoE模型基本结构示意(来源:网络)

DeepSeek-V3采用了多头潜注意力(MLA,对传统多头注意力机制的改进)和DeepSeekMoE架构

(对传统MoE架构的改进),无辅助损失的负载平衡策略等创新技术,基于14.8万亿Token的数据

进行训练,在代码生成、分析等任务中表现出色。

其中多头潜注意力(MLA)机制和DeepSeekMoE是V3和R1模型提高计算效率,减少算力浪费的关键。

其中MLA大概贡献了2-4倍的计算效率提升,MoE大概贡献了4倍以上的计算效率提升。

1)MLA(Multi-HeadLatentAttention)

在“Allyouneedisattention”的背景下,传统的多头注意力(MHA,Multi-HeadAttention)的

键值(KV)缓存机制事实上对计算效率形成了较大阻碍。缩小KV缓存(KVCache)大小,并提高性

能,在之前的模型架构中并未很好的解决。DeepSeek引入了MLA,一种通过低秩键值联合压缩的注意

力机制,在显著减小KV缓存的同时提高计算效率。低秩近似是快速矩阵计算的常用方法,在MLA之

前很少用于大模型计算。在这里我们可以看到DeepSeek团队的量化金融基因在发挥关键作用。当然

实现潜空间表征不止低秩近似一条路,预计后面会有更精准高效的方法。

从大模型架构的演进情况来看,Prefill和KVCache容量瓶颈的问题正一步步被新的模型架构攻克,巨

大的KVCache正逐渐成为历史。(事实上在2024年6月发布DeepSeek-V2的时候就已经很好的降低了

KVCache的大小)

2)DeepSeekMoE

为了让1991年就提出的MoE架构更好的融入大模型体系,克服传统MoE模型的训练难题。DeepSeek

采用了细粒度专家+通才专家的思路,不再使用少数大专家的结构,而是使用大量极小的专家结构。这

个思路的本质在于将知识空间进行离散细化,以更好的逼近连续的多维知识空间,是一个非常好的方

法。

无辅助损失的负载平衡策略可在不依赖辅助损失函数的情况下平衡分配计算/训练负载,更好的提高训

练稳定性。

基于以上关键的改进,V3实现了更高的训练效率,比性能类似的Llama3.1405B少了大约10倍的

训练计算量。

1.2R1在CoT的进化

广义上的DeepSeek-R1不是一个单一的模型,还包括了R1的初始阶段模型DeepSeek-R1-Zero,以及

几个基于R1蒸馏的较小的大模型。在这里我们主要讨论R1-Zero和R1。

文档评论(0)

优选文档 + 关注
实名认证
内容提供者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档