DeepSeek原理与效应解析.pptx

下载文档

1
0
约4.68千字
约 43页
2025-02-18 发布于广东
举报
版权申诉
保障服务

DeepSeek原理与效应解析.pptx

1、本文档共43页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

深度解读DeepSeek：原理与效应;

大语言模型发展路线图

DeepSeekV2-V3/R1技术原理DeepSeek效应

未来展望;

生成式AI：使用生成式模型生成各类数据(语言、语音、图片、视频等)

oAttention：数据依存关系建模

oTransformer：数据生成的统一架构

oScalingLaws：数据学习、生成的扩展法则

oRLHF：生成与人类价值对齐的数据

oo1/R1：生成式求解问题——生成问题求解的过程和答案(推理);

生成式AI：使用生成式模型生成各类数据(语言、语音、图片、视频等)

oAttention：数据依存关系建模

oTransformer：数据生成的统一架构

oScalingLaws：数据学习、生成的扩展法则

oRLHF：生成与人类价值对齐的数据

oo1/R1：生成式求解问题——生成复杂问题的答案(推理);

生成式AI：使用生成式模型生成各类数据(语言、语音、图片、视频等)

oAttention：数据依存关系建模

oTransformer：数据生成的统一架构

oScalingLaws：数据学习、生成的扩展法则

oRLHF：生成与人类价值对齐的数据

oo1/R1：生成式求解问题——生成复杂问题的答案(推理);

生成式AI：使用生成式模型生成各类数据(语言、语音、图片、视频等)

oAttention：数据依存关系建模

oTransformer：数据生成的统一架构

oScalingLaws：数据学习、生成的扩展法则

oRLHF：生成与人类价值对齐的数据

oo1/R1：生成式求解问题——生成复杂问题的答案(推理);

生成式AI：使用生成式模型生成各类数据(语言、语音、图片、视频等)

oAttention：数据依存关系建模

oTransformer：数据生成的统一架构

oScalingLaws：数据学习、生成的扩展法则

oRLHF：生成与人类价值对齐的数据

oo1/R1：生成式求解问题——生成复杂问题的答案(推理);

自然语言处理：人类语言的智能化处理与分析，使计算机具备听、说、读、写、译等人所具备的语言能力;

大语言模型：2018——2024;;

o训练范式

?预训练——基座模型

?后训练——对齐模型

?推理训练——推理模型;;

大语言模型：后训练范式;;

大语言模型发展路线图

DeepSeekV2-V3/R1技术原理

DeepSeek效应

未来展望;

天边的两多云(国内外现状)

o模型架构：大部分企业采用已验证架构(试???成本高昂)【不敢】

o推理模型：大部分实验室仍在苦苦猜测摸索Q*/o1(OpenAI必威体育官网网址)【不知】;

DeepSeekV2主要创新

oDeepSeekMoE

oMLA

DeepSeekMoE

o稀疏激活：计算不随规模呈线性增长

o相比传统MoE：细粒度专家(共享+路由)

o路由通信改造：

?Device-LimitedRouting

?AuxiliaryLossforLoadBalance

?Token-DroppingStrategy

MLA：低秩压缩，降低KVcache占用空间;

杀手锏：性能/成本曲线|性价比;

DeepSeekV3主要创新

oInfrastructures

oMulti-TokenPrediction(MTP)

Infrastructures

o减少流水线气泡

o高效节点间All-to-All通信

oFP8训练

o低精度存储与通信;

杀手锏：性能/成本曲线|性价比;;

DeepSeekV2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型，并进行和积

累了大量技术创新，包括MLA、FP8训练、MoEAll-to-All通信瓶颈解决、MTP等，这些技术并不是所有都是原始创新，但是能够进行如此多大模型架构底层创新的实验室，在全世界可能也只有少数几个；

DeepSeek所有模型架构上的创新均是围绕“降本增效”：在基本不损害性能前提下，尽可能通过算法挖掘和提升硬件训练和解码效率

美国采取芯片禁令(全球三级管控)策略维持自己的AI领导地位，DeepSeek算法

绕过了美国的算力护城河;

DeepSeekR1主要创新

oDeepSeek-R1-Zero：大规模RL训练，发现了RL训练的ScalingLaws，RL训练涌现“aha”时刻

o推理模型训练技术框架：4步法，有效解决了R1-Ze

您可能关注的文档

文档评论（0）

沧海一粟2020 + 关注: 实名认证

内容提供者

文不能提笔控萝莉，武不能骑马战人妻，入佛门则六根不净，入商道则狼性不足，想想还是做文字民工！

咨询Ta 进入空间

1亿VIP精品文档

更多 >

DeepSeek原理与效应解析.pptx