网站大量收购独家精品文档,联系QQ:2885784924

计算机行业深度报告:DeepSeek火爆全球,AI生态加速繁荣.docx

计算机行业深度报告:DeepSeek火爆全球,AI生态加速繁荣.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

目 录

1、DeepSeek模型技术惊艳,用户飙升 3

2、海内外云厂商和应用公司争相上线,国产AI前景可期 8

3、投资建议 10

4、风险提示 11

图表目录

图1:DeepSeek-R1性能对齐OpenAI-o1正式版 3

图2:蒸馏小模型超越OpenAIo1-mini 3

图3:DeepSeekR1模型价格远低于o1系列模型 5

图4:DeepSeek成为全球增速最快的AI应用之一 5

图5:DeepSeek7天用户破亿 6

图6:DeepSeek成史上最快突破3000万日活APP 7

图7:DeepSeek暂停API服务充值 7

图8:多家海外科技巨头宣布接入DeepSeek-R1 8

图9:国内多家云厂商上线DeepSeek 9

图10:多款国产AI芯片适配DeepSeek 10

表1:DeepSeek-R1通过强化学习和冷启动数据,显著提升模型的推理能力 4

表2:受益标的盈利预测和估值 11

1、DeepSeek模型技术惊艳,用户飙升

DeepSeek-R1性能对齐OpenAI-o1正式版。1月20日,DeepSeek-R1正式发布,并同步开源模型权重。DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有较少标注数据的情况下,较大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版。

图1:DeepSeek-R1性能对齐OpenAI-o1正式版

DeepSeek公众号

蒸馏小模型超越OpenAIo1-mini。在开源DeepSeek-R1-Zero和DeepSeek-R1两个660B模型的同时,通过DeepSeek-R1的输出,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上实现了对标OpenAIo1-mini的效果。

图2:蒸馏小模型超越OpenAIo1-mini

DeepSeek公众号

DeepSeek-R1通过强化学习和冷启动数据,显著提升模型的推理能力。DeepSeekLLM通过扩展模型规模和引入多阶段训练,提升了模型在多个领域的表现。DeepSeek-V2引入MoE架构,通过MLA和DeepSeekMoE实现高效推理和经济训练。DeepSeek-V3进一步扩展模型规模,引入多令牌预测和无辅助损失的负载均衡策略,实现了更高的性能和更低的训练成本。DeepSeek-R1通过强化学习和冷启动数据,显著提升了模型的推理能力,并通过蒸馏技术将推理能力扩展到小型模型。

R1-Zero不依赖人类专家标注(SFT),仅使用强化学习(RL)。R1-Zero直接将强化学习应用于基础模型,使得模型能够使用思维链(CoT)来解决复杂问题,模型也展现了自我验证、反思和生成长思维链等能力。这是业界首个公开研究证明了无需使用SFT,仅仅通过RL就可以显著增强LLM的推理能力,是Reasoning领域的里程碑性工作。

版本 技术特点 主要贡献 数据集 性能与效率 其他表1:DeepSeek-R1通过强化学习和冷启动数据,显著提升模型的推理能力

版本 技术特点 主要贡献 数据集 性能与效率 其他

DeepSeekLLM

开源大语言模型,采用7B和67B

两种配置;

使用2万亿token数据集;引入多阶段训练和强化学习;

通过直接偏好优化提升对话性能

提出扩展开源语言模型的规模;通过研究扩展规律指导模型扩展,在代码、数学和推理领域表现优异;

提供丰富的预训练数据和多样化的训练信号

2万亿

token

(主要在英语和中文)

在多个基准测试中优于LLaMA-270B,在中文和英文开放式评估中表现优异

强调长期主义和开源精神,强调模型在不同领域表现优异的泛化能力

采用Mixture-of-Experts(MoE)架构,支持128K上下文长度;采用Multi-headLatentAttention

提出高效的MoE架构用于推理和训练;

通过MLA和DeepSeekMoE实现

在多个基准测试

8.1万亿 中表现优异,相

token(扩比DeepSeek67B

强调模型的高效性和经济性,提供多

DeepSeek-V2

(MLA)和DeepSeekMoE;

提出辅助损失自由负载均衡策略;

通过FP8训练提高训练效率

高效推理和经济训练;

在推理吞吐量和生成速度上有显著提升

展到更多

中文数据)

节省42.5%的训

练成本,提高最大生成吞

您可能关注的文档

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档