网站大量收购独家精品文档,联系QQ:2885784924

DeepSeek原理与效应解析.pptx

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

深度解读DeepSeek:原理与效应;

大语言模型发展路线图

DeepSeekV2-V3/R1技术原理DeepSeek效应

未来展望;

生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)

oAttention:数据依存关系建模

oTransformer:数据生成的统一架构

oScalingLaws:数据学习、生成的扩展法则

oRLHF:生成与人类价值对齐的数据

oo1/R1:生成式求解问题——生成问题求解的过程和答案(推理);

生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)

oAttention:数据依存关系建模

oTransformer:数据生成的统一架构

oScalingLaws:数据学习、生成的扩展法则

oRLHF:生成与人类价值对齐的数据

oo1/R1:生成式求解问题——生成复杂问题的答案(推理);

生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)

oAttention:数据依存关系建模

oTransformer:数据生成的统一架构

oScalingLaws:数据学习、生成的扩展法则

oRLHF:生成与人类价值对齐的数据

oo1/R1:生成式求解问题——生成复杂问题的答案(推理);

生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)

oAttention:数据依存关系建模

oTransformer:数据生成的统一架构

oScalingLaws:数据学习、生成的扩展法则

oRLHF:生成与人类价值对齐的数据

oo1/R1:生成式求解问题——生成复杂问题的答案(推理);

生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)

oAttention:数据依存关系建模

oTransformer:数据生成的统一架构

oScalingLaws:数据学习、生成的扩展法则

oRLHF:生成与人类价值对齐的数据

oo1/R1:生成式求解问题——生成复杂问题的答案(推理);

自然语言处理:人类语言的智能化处理与分析,使计算机具备听、说、读、写、译等人所具备的语言能力;

大语言模型:2018——2024;;

o训练范式

?预训练——基座模型

?后训练——对齐模型

?推理训练——推理模型;;

大语言模型:后训练范式;;

大语言模型发展路线图

DeepSeekV2-V3/R1技术原理

DeepSeek效应

未来展望;

天边的两多云(国内外现状)

o模型架构:大部分企业采用已验证架构(试???成本高昂)【不敢】

o推理模型:大部分实验室仍在苦苦猜测摸索Q*/o1(OpenAI必威体育官网网址)【不知】;

DeepSeekV2主要创新

oDeepSeekMoE

oMLA

DeepSeekMoE

o稀疏激活:计算不随规模呈线性增长

o相比传统MoE:细粒度专家(共享+路由)

o路由通信改造:

?Device-LimitedRouting

?AuxiliaryLossforLoadBalance

?Token-DroppingStrategy

MLA:低秩压缩,降低KVcache占用空间;

杀手锏:性能/成本曲线|性价比;

DeepSeekV3主要创新

oInfrastructures

oMulti-TokenPrediction(MTP)

Infrastructures

o减少流水线气泡

o高效节点间All-to-All通信

oFP8训练

o低精度存储与通信;

杀手锏:性能/成本曲线|性价比;;

DeepSeekV2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积

累了大量技术创新,包括MLA、FP8训练、MoEAll-to-All通信瓶颈解决、MTP等,这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实验室,在全世界可能也只有少数几个;

DeepSeek所有模型架构上的创新均是围绕“降本增效”:在基本不损害性能前提下,尽可能通过算法挖掘和提升硬件训练和解码效率

美国采取芯片禁令(全球三级管控)策略维持自己的AI领导地位,DeepSeek算法

绕过了美国的算力护城河;

DeepSeekR1主要创新

oDeepSeek-R1-Zero:大规模RL训练,发现了RL训练的ScalingLaws,RL训练涌现“aha”时刻

o推理模型训练技术框架:4步法,有效解决了R1-Ze

文档评论(0)

沧海一粟2020 + 关注
实名认证
内容提供者

文不能提笔控萝莉,武不能骑马战人妻,入佛门则六根不净,入商道则狼性不足,想想还是做文字民工!

1亿VIP精品文档

相关文档