网站大量收购闲置独家精品文档,联系QQ:2885784924

DeepSeek核心十问十答20250205.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

中信建投计算机|DeepSeek核心十问十

1、模型发展与用户增长

模型迭代迅速:DeepSeek基于开源模型路线发展,2023年11月2日开发首个

大模型,之后陆续推出以LLaMA和MoE架构为主的通用大模型以及多模态模

型。其迭代速度较快,平均三个月有一个中大型版本更新,最长不超六个月。

这种快速迭代使模型能紧跟技术发展,不断优化性能,满足用户和市场的新需

求。

用户量增长显著:在推出API的V3.2.1版本后,DeepSeek的日均下载量增长迅

速。在2024年GPT-4推出前,访问量约200到400多万。春节期间后,月活

达到1500万,且在发布第18天就实现这一成绩,相比ChatGPT上线244天才

达到1500万DAU有大幅提升。这表明DeepSeek在用户获取方面成效显著,反

映出其在市场上的吸引力和竞争力不断增强。

2、模型性能表现

单模态推理能力出色:DeepSeek的RE在推理能力上基本与OpenAIGPT-4相

当,完整版GPT-4仍有差距。在教育导向的知识任务中能达到90.8的标准,

优于V3;中英文有哪些信誉好的足球投注网站和数据分析方面,在无安全RE的情况下准确率达70%;

数学能力与GPT-4相当,优于其他非推理模型;编码能力也有较高分数。在与

多个版本模型对比中,英文、代码、数学及中文能力优秀,尤其数学和中文能

力明显领先。

多模态能力良好:春节期间推出的多模态模型在多模态基础理解、模型生成的

视觉编码流方面表现较好,图文生成能力在密集指令阶段出色。R1已达到

OpenAI的O1水平,较O3模型虽有差距,但在O1端实现突破。多模态模型的

良好表现证明了DeepSeek图像理解和生成解耦思路的可行性,为模型发展提供

了新方向。

3、训练成本优势

成本大幅降低:根据公开资料,通用及推理模型成本较OpenAI的O1同类型成

本下降接近十分之一。例如,DeepSeekV3的token收入变为0.5,每百万token

为8;R1的API每百万输出模型为16元,而OpenAI的O1每百万输出模型为

60美元。V3总训练成本557.6万美元,以H800算力计算,训练阶段不到两个

月,耗时266.4万个GPU小时,加上其他需求共278.8万个GPU小时;而O1

按2.5万张卡A100计算,至少需3.2万张卡90天。

成本降低原因:DeepSeek通过多种方式降低训练成本。采用DeepSeek的MOE

架构,用更细粒度专家模型和稠密模型提高计算利用率、减少激活参数量;V3

模型采用MILA算法,通过机制联合压缩助力域限制减少TPU缓存、降低计算

量;硬件端框架实现流水线定型,提高GPU应用速度;采用FP8数据格式进行

细颗粒度混合精度框架提升训练效率。

4、技术架构创新

核心技术优势:V3的技术革命核心是多头注意力模型MHA,其通过投影方式

存储token信息,减少缓存需求,降低内存消耗。MoE模型利用门控技术判断

专家参与情况,采用更细粒度专家隔离共享专家,解决专家模型复杂不平衡问

题,提升效率并积累参数进行推理。MTP模型将多单token生成转为多模token

生成,优化算法,通过增加额外token保证因果性,提升训练效率。

架构优化策略:V3在访问技术架构上进行优化,设计并行管道,通过前后向计

算和通信叠加提升效率;采用FP8混合训练架构,关键战略用原始数据训练保

持稳定,其他采用汇编代替标准扩大方案实现硬件优化、减少冗余。RL证明纯

强化学习对模型推理能力有提升作用,能解决大模型幻觉问题,还为scaling

law提供新思路,未来可能成为模型核心训练思路。

5、数据层面特性

合成数据广泛应用:在大模型训练中,合成数据重要性日益提高。以GPT-3为

例,监督微调阶段借助RL模型生成的样本数据筛选高质量数据用于训练;推理

训练阶段,RL冷启动利用RL-zero生成和人工标注微调,微调阶段使用大量相

关样本;小模型蒸馏和多模态模型也广泛使用合成数据。这表明合成数据在模

型训练各阶段都发挥着重要作用。

合成数据应用趋势:合成数据的应用符合新研究趋势,通过自适应策略优化算

法,纯强化学习摆脱人类经验限制,挖掘数据价值,助力模型向AGI进化。未

来合成数据在数据集中占比将越来越高,其应用将推动模型不断发展和优化,

为模型性能提升提供有力支持。

6、ScalingLaw分析

ScalingLaw有效性:Scalinglaw

文档评论(0)

偷得浮生半日闲 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档