网站大量收购闲置独家精品文档,联系QQ:2885784924

DeepSeeK开启AI算法变革元年.pptx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

2025

DeepSeek开启Al算法变革元年

出品机构:甲子光年智库

研究团队:xxa、XX、XX、XXX、XXX

发布时间:2025.02;

子光年1、人工智能的发展已到战略拐点

口经过近七十年的发展,人工智能自出现至今其核心能力一直在提升,到如今已经成为覆盖感知、认知、决策、学习、执行、社会协作能力,未来还会向符合人类情感、伦理与道德观念的智能机器迈进。

口发展到现在,人工智能的技术能力已经到了一个拐点,即从技术能力驱动向需求应用驱动转型的关键时期。随着技术能力的提升,技术进化引发经济进化,从旧范式抵达新范式。如今人工智能的发展已经处于从第三阶段向第四阶段过渡的时期。人工智能的能力成长历程已经足够长,到了寻找需求的战略拐点。

图1:技术革命的周期性示意图;

训练算力(petaFLOPs)

1.E+12

VIDIA

Megatron-TuringNLG530BPaLM(540B)

XLama2-70B

GPT-3175B(davinc)

GLM-130B

1.E+06

DeepSeek-R1-671B

DeepSeek-R1-Distill-Qwen-32BDeepSeek-R1-Distill-Qwen-1.5B

1.E+02

201120122015201620172020202120222023202420252026;

DeepSeek-R1的惊艳之处是通过重新设计训练流程、以少量SFT数据+多轮强化学习的办法,在提高了模型准确性的同时,也显著降低了内存占用和计算开销。

DeepSeek-R1提供了一种低成本训练的方法,而不是说只能通过低成本来进行训练。

反而通过优化,DeepSeek-R1可能实现了算力与性能的近似线性关系。每增加一张GPU,模型推理能力可稳定提升,无需依赖复杂的外部监督机制。这一特性直接验证了“算力即性能”的ScalingLaw,为Al芯片市场及AlInfra市场提供了明确的增量需求逻辑。;

高参数量低参数量

DeepSeek-R1-671B,

6710

MiniMax-Text-01,

4560MiniMax-VL-01,4560

DeopSeek-R1-Distill

DeepSeek-R1-Distil-

QMn-328,320

Qwen-158,15

2025年1月2025年1月;

2022年2023年2024年2025年未来

数据来源:甲子光年智库梳理,2025年;6;

子光年5、算法变革元年:DeepSeek的推理模型开启算法变革的元年

R1-zero完全基于RL(强化学习)进行训练,以第三阶段为主,通过自我学习来提高性能

图1:传统AI基础大模型的训练过程三个阶段都注重图2:DeepSeek聚焦的训练过程核心在第三阶段;

DeepSeek-R1的训练流程:通过RL强化LLM的推理能力

口R1-zero完全基于RL(强化学习)进行训练,未使用任何监督训练或人类反馈,能够通过自我学习来提高性能。口R1是在R1-zero的基础上,通过少量冷启动数据进行微调,提高了输出质量和可读性。

DeepSeek-R1的训练过程;

口除了基于Transformer架构的算法创新之外,非Transformer架构的新算法也成为近期新出现的重点发展方向。

口一种新架构模型LFM(LiquidFoundationModel),超越了同等规模的Transformer模型如Llama3.2。它用的是一种液态神经网络(LNN),

其计算单元植根于动态系统理论、信号处理和数值线性代数。其小巧便携的特性使得它能够直接部署在手机上进行文档和书籍等分析。

口因此,甲子光年智库判断,2025年将是算法变革的元年。未来最适合人类使用的大模型,可能会是非Transformer架构的算法模型。;

子光年6、算法变革的第二条路径:非Transformer架构的算法模型

A

文档评论(0)

领航教育 + 关注
实名认证
服务提供商

专注于中小学教案的个性定制:修改,审批等。本人已有2年教写相关工作经验,具有基本的教案定制,修改,审批等能力。可承接教案,读后感,检讨书,工作计划书等多方面的个性化服务。欢迎大家咨询^

1亿VIP精品文档

相关文档