网站大量收购独家精品文档,联系QQ:2885784924

深度拆解DeepSeek创新点和特点.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

会议要点

1、DeepSeekV3和R1的创新点

多头的层次注意力机制(MLA):用相对创新的算法降低了在训练时key、value等值所需的

参数量,减少了训练和推理的算力需求。

混合专家模型(MOE)的训练和推理方法:用多个专家替换大模型训练和推理过程中的一层

(MLP),在模型训练和推理过程中,可以不用激活所有专家的参数,减少训练所需的算力

需求,提升训练和推理效率。

多token预测(MTP):可以预测第N个参数以后的多个参数,每次训练或推理过程中可输

出多个减少loss的值,对模型进行更高效的训练。

FP8的混合精度训练:首次采用FP8混合精度的算力进行训练,顺应了更低精度算力的趋势。

R1模型的创新点:减少了SFT环节,不用进行监督反馈,却能达到类似于之前待监督的

Fine-tune模型的效果。

2、DeepSeekV3和R1的影响

对算力需求的影响:DeepSeekV3这种六百多B的模型,相比于之前的开源模型,算力需求

大幅下降,用两千多张卡、一两个月的时间就训练出性能良好的模型,算力利用效率是之前

模型的1/10。

对小模型性能的提升:用RL模型作为teacher去蒸馏其他开源模型,如通义千问或LLaMA3,

经过蒸馏的小模型性能会有显著提升,可在端侧用更低的算力成本获得更好的用户体验。

对训练和应用的影响:DeepSeekV3这样的模型,在两千多张卡的训练算力上,可获得类似

于之前上万张卡集群的效果,且在应用侧会有更多场景落地,推理侧的需求会有更好的增长,

像谷歌TPU这种ASIC卡的推理侧卡的需求会有更显著的增长。

3、DeepSeek的强化学习(RL)

RL的创新之处:DeepSeek在强化学习方法上有一些创新,采用冷启动,通过构建并收集少

量COT数据微调的模型作为初始的强化学行为体,其奖励模型引入准确性奖励和格式奖励,

通过这种reward机制能够回馈模型,让过程和数据更好,推理结果更佳。此外,V3有两个

版本,一个不依赖SFT,另一个是SFT加上强化学习组合使用,且该过程可支持蒸馏。

RL的蒸馏方式:DeepSeek的蒸馏为白盒子蒸馏,允许将自己的模型(如6700亿参数的模型)

蒸馏成较小的模型(如千万或14亿参数的模型),并将其提供给客户或下游厂商,以赋能其

他模型,而其他家的传统蒸馏方式为黑匣子蒸馏。

4、DeepSeek的MOE与传统MOE的区别

传统MOE的问题:MOE比较难训练,在后训练时比并行稍微麻烦,且在预算过程中,由于

专家模型数量较多(如256个),在预训时需要考虑负载均衡问题,否则会导致部分专家过

度训练,部分专家训练不足,从而影响整个模型性能。

DeepSeek的MOE的优势:DeepSeek引入无辅助损失负载均衡技术,通过引入自适应学习

的惩罚项、动态调度运营决策来决策专家的负载均衡,避免由于个别专家没有得到充分训练,

导致整个模型性能下降,这是其在工程上的较好方法。

5、DeepSeek对算力或加速卡性能要求的影响

对CUDA依赖的问题:DeepSeek在训练过程中,底层算子调度和寄存器调度方面,使用PDS

技术直接到GPU底层用更细颗粒度的指令去调度资源进行通信和显存调度,是业界先行者。

但CUDA和PDS并非完全独立,PDS是CUDA的一部分,在预训练过程中,个别需要用到底

层算力调度的细颗粒任务会用到PDS,因此是PDS加CUDA一起才达到现在的效果,且该技

术无法直接复刻到其他芯片上。

对高端芯片的影响:对于更大规模的机型和高端芯片(如A100、H100)来说,DeepSeek的

出现可能是利空。因为随着对FP8这种低精度训练的研究,后续可能对更高端芯片的需求没

那么强烈,对中低端芯片反而是好处。

6、AI商业模式下大模型公司的商业壁垒

DeepSeek的开源思路:DeepSeek在开源商业模式上没想清楚,其目的可能是想成为开源社

区的领先者,2万只是未来面向下一代模型的新起点,模型会持续增长和迭代。虽然目前与

海外多模态模型在复杂部分仍有差距,但未来市场上的模型玩家会减少,形成多个模型并存

且竞争的态势,DeepSeek的领先优势可能只能保持两三个月。

7、DeepSeek在推理和算力上的创新

推理上的创新:DeepSeek推理时用白卡集群进行推理,相比以前的单卡推理,其最大的特

点是需要用蒸馏版本的小模型进行推理,如将模型变成32G,十几张卡(如RTX4090)就可

进行推理。目前DeepSeek面临C端产品漏

您可能关注的文档

文档评论(0)

偷得浮生半日闲 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档