深度拆解DeepSeek创新点和特点.pdfVIP

下载本文档

0
0
约9.57千字
约 6页
2025-02-16 发布于北京
举报
版权申诉

深度拆解DeepSeek创新点和特点.pdf

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

会议要点

1、DeepSeekV3和R1的创新点

多头的层次注意力机制（MLA）：用相对创新的算法降低了在训练时key、value等值所需的

参数量，减少了训练和推理的算力需求。

混合专家模型（MOE）的训练和推理方法：用多个专家替换大模型训练和推理过程中的一层

（MLP），在模型训练和推理过程中，可以不用激活所有专家的参数，减少训练所需的算力

需求，提升训练和推理效率。

多token预测（MTP）：可以预测第N个参数以后的多个参数，每次训练或推理过程中可输

出多个减少loss的值，对模型进行更高效的训练。

FP8的混合精度训练：首次采用FP8混合精度的算力进行训练，顺应了更低精度算力的趋势。

R1模型的创新点：减少了SFT环节，不用进行监督反馈，却能达到类似于之前待监督的

Fine-tune模型的效果。

2、DeepSeekV3和R1的影响

对算力需求的影响：DeepSeekV3这种六百多B的模型，相比于之前的开源模型，算力需求

大幅下降，用两千多张卡、一两个月的时间就训练出性能良好的模型，算力利用效率是之前

模型的1/10。

对小模型性能的提升：用RL模型作为teacher去蒸馏其他开源模型，如通义千问或LLaMA3，

经过蒸馏的小模型性能会有显著提升，可在端侧用更低的算力成本获得更好的用户体验。

对训练和应用的影响：DeepSeekV3这样的模型，在两千多张卡的训练算力上，可获得类似

于之前上万张卡集群的效果，且在应用侧会有更多场景落地，推理侧的需求会有更好的增长，

像谷歌TPU这种ASIC卡的推理侧卡的需求会有更显著的增长。

3、DeepSeek的强化学习（RL）

RL的创新之处：DeepSeek在强化学习方法上有一些创新，采用冷启动，通过构建并收集少

量COT数据微调的模型作为初始的强化学行为体，其奖励模型引入准确性奖励和格式奖励，

通过这种reward机制能够回馈模型，让过程和数据更好，推理结果更佳。此外，V3有两个

版本，一个不依赖SFT，另一个是SFT加上强化学习组合使用，且该过程可支持蒸馏。

RL的蒸馏方式：DeepSeek的蒸馏为白盒子蒸馏，允许将自己的模型（如6700亿参数的模型）

蒸馏成较小的模型（如千万或14亿参数的模型），并将其提供给客户或下游厂商，以赋能其

他模型，而其他家的传统蒸馏方式为黑匣子蒸馏。

4、DeepSeek的MOE与传统MOE的区别

传统MOE的问题：MOE比较难训练，在后训练时比并行稍微麻烦，且在预算过程中，由于

专家模型数量较多（如256个），在预训时需要考虑负载均衡问题，否则会导致部分专家过

度训练，部分专家训练不足，从而影响整个模型性能。

DeepSeek的MOE的优势：DeepSeek引入无辅助损失负载均衡技术，通过引入自适应学习

的惩罚项、动态调度运营决策来决策专家的负载均衡，避免由于个别专家没有得到充分训练，

导致整个模型性能下降，这是其在工程上的较好方法。

5、DeepSeek对算力或加速卡性能要求的影响

对CUDA依赖的问题：DeepSeek在训练过程中，底层算子调度和寄存器调度方面，使用PDS

技术直接到GPU底层用更细颗粒度的指令去调度资源进行通信和显存调度，是业界先行者。

但CUDA和PDS并非完全独立，PDS是CUDA的一部分，在预训练过程中，个别需要用到底

层算力调度的细颗粒任务会用到PDS，因此是PDS加CUDA一起才达到现在的效果，且该技

术无法直接复刻到其他芯片上。

对高端芯片的影响：对于更大规模的机型和高端芯片（如A100、H100）来说，DeepSeek的

出现可能是利空。因为随着对FP8这种低精度训练的研究，后续可能对更高端芯片的需求没

那么强烈，对中低端芯片反而是好处。

6、AI商业模式下大模型公司的商业壁垒

DeepSeek的开源思路：DeepSeek在开源商业模式上没想清楚，其目的可能是想成为开源社

区的领先者，2万只是未来面向下一代模型的新起点，模型会持续增长和迭代。虽然目前与

海外多模态模型在复杂部分仍有差距，但未来市场上的模型玩家会减少，形成多个模型并存

且竞争的态势，DeepSeek的领先优势可能只能保持两三个月。

7、DeepSeek在推理和算力上的创新

推理上的创新：DeepSeek推理时用白卡集群进行推理，相比以前的单卡推理，其最大的特

点是需要用蒸馏版本的小模型进行推理，如将模型变成32G，十几张卡（如RTX4090）就可

进行推理。目前DeepSeek面临C端产品漏

您可能关注的文档

文档评论（0）

偷得浮生半日闲 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

深度拆解DeepSeek创新点和特点.pdfVIP