DeepSeek核心十问十答20250205.pdf

下载文档

0
0
约2.99千字
约 3页
2025-02-16 发布于北京
举报
版权申诉
保障服务

DeepSeek核心十问十答20250205.pdf

1、本文档共3页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中信建投计算机|DeepSeek核心十问十

1、模型发展与用户增长

模型迭代迅速：DeepSeek基于开源模型路线发展，2023年11月2日开发首个

大模型，之后陆续推出以LLaMA和MoE架构为主的通用大模型以及多模态模

型。其迭代速度较快，平均三个月有一个中大型版本更新，最长不超六个月。

这种快速迭代使模型能紧跟技术发展，不断优化性能，满足用户和市场的新需

求。

用户量增长显著：在推出API的V3.2.1版本后，DeepSeek的日均下载量增长迅

速。在2024年GPT-4推出前，访问量约200到400多万。春节期间后，月活

达到1500万，且在发布第18天就实现这一成绩，相比ChatGPT上线244天才

达到1500万DAU有大幅提升。这表明DeepSeek在用户获取方面成效显著，反

映出其在市场上的吸引力和竞争力不断增强。

2、模型性能表现

单模态推理能力出色：DeepSeek的RE在推理能力上基本与OpenAIGPT-4相

当，完整版GPT-4仍有差距。在教育导向的知识任务中能达到90.8的标准，

优于V3；中英文有哪些信誉好的足球投注网站和数据分析方面，在无安全RE的情况下准确率达70%；

数学能力与GPT-4相当，优于其他非推理模型；编码能力也有较高分数。在与

多个版本模型对比中，英文、代码、数学及中文能力优秀，尤其数学和中文能

力明显领先。

多模态能力良好：春节期间推出的多模态模型在多模态基础理解、模型生成的

视觉编码流方面表现较好，图文生成能力在密集指令阶段出色。R1已达到

OpenAI的O1水平，较O3模型虽有差距，但在O1端实现突破。多模态模型的

良好表现证明了DeepSeek图像理解和生成解耦思路的可行性，为模型发展提供

了新方向。

3、训练成本优势

成本大幅降低：根据公开资料，通用及推理模型成本较OpenAI的O1同类型成

本下降接近十分之一。例如，DeepSeekV3的token收入变为0.5，每百万token

为8；R1的API每百万输出模型为16元，而OpenAI的O1每百万输出模型为

60美元。V3总训练成本557.6万美元，以H800算力计算，训练阶段不到两个

月，耗时266.4万个GPU小时，加上其他需求共278.8万个GPU小时；而O1

按2.5万张卡A100计算，至少需3.2万张卡90天。

成本降低原因：DeepSeek通过多种方式降低训练成本。采用DeepSeek的MOE

架构，用更细粒度专家模型和稠密模型提高计算利用率、减少激活参数量；V3

模型采用MILA算法，通过机制联合压缩助力域限制减少TPU缓存、降低计算

量；硬件端框架实现流水线定型，提高GPU应用速度；采用FP8数据格式进行

细颗粒度混合精度框架提升训练效率。

4、技术架构创新

核心技术优势：V3的技术革命核心是多头注意力模型MHA，其通过投影方式

存储token信息，减少缓存需求，降低内存消耗。MoE模型利用门控技术判断

专家参与情况，采用更细粒度专家隔离共享专家，解决专家模型复杂不平衡问

题，提升效率并积累参数进行推理。MTP模型将多单token生成转为多模token

生成，优化算法，通过增加额外token保证因果性，提升训练效率。

架构优化策略：V3在访问技术架构上进行优化，设计并行管道，通过前后向计

算和通信叠加提升效率；采用FP8混合训练架构，关键战略用原始数据训练保

持稳定，其他采用汇编代替标准扩大方案实现硬件优化、减少冗余。RL证明纯

强化学习对模型推理能力有提升作用，能解决大模型幻觉问题，还为scaling

law提供新思路，未来可能成为模型核心训练思路。

5、数据层面特性

合成数据广泛应用：在大模型训练中，合成数据重要性日益提高。以GPT-3为

例，监督微调阶段借助RL模型生成的样本数据筛选高质量数据用于训练；推理

训练阶段，RL冷启动利用RL-zero生成和人工标注微调，微调阶段使用大量相

关样本；小模型蒸馏和多模态模型也广泛使用合成数据。这表明合成数据在模

型训练各阶段都发挥着重要作用。

合成数据应用趋势：合成数据的应用符合新研究趋势，通过自适应策略优化算

法，纯强化学习摆脱人类经验限制，挖掘数据价值，助力模型向AGI进化。未

来合成数据在数据集中占比将越来越高，其应用将推动模型不断发展和优化，

为模型性能提升提供有力支持。

6、ScalingLaw分析

ScalingLaw有效性：Scalinglaw

您可能关注的文档

文档评论（0）

偷得浮生半日闲 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

DeepSeek核心十问十答20250205.pdf