- 1、本文档共43页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
深度解读DeepSeek:原理与效应;
大语言模型发展路线图
DeepSeekV2-V3/R1技术原理DeepSeek效应
未来展望;
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)
oAttention:数据依存关系建模
oTransformer:数据生成的统一架构
oScalingLaws:数据学习、生成的扩展法则
oRLHF:生成与人类价值对齐的数据
oo1/R1:生成式求解问题——生成问题求解的过程和答案(推理);
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)
oAttention:数据依存关系建模
oTransformer:数据生成的统一架构
oScalingLaws:数据学习、生成的扩展法则
oRLHF:生成与人类价值对齐的数据
oo1/R1:生成式求解问题——生成复杂问题的答案(推理);
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)
oAttention:数据依存关系建模
oTransformer:数据生成的统一架构
oScalingLaws:数据学习、生成的扩展法则
oRLHF:生成与人类价值对齐的数据
oo1/R1:生成式求解问题——生成复杂问题的答案(推理);
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)
oAttention:数据依存关系建模
oTransformer:数据生成的统一架构
oScalingLaws:数据学习、生成的扩展法则
oRLHF:生成与人类价值对齐的数据
oo1/R1:生成式求解问题——生成复杂问题的答案(推理);
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)
oAttention:数据依存关系建模
oTransformer:数据生成的统一架构
oScalingLaws:数据学习、生成的扩展法则
oRLHF:生成与人类价值对齐的数据
oo1/R1:生成式求解问题——生成复杂问题的答案(推理);
自然语言处理:人类语言的智能化处理与分析,使计算机具备听、说、读、写、译等人所具备的语言能力;
大语言模型:2018——2024;;
o训练范式
?预训练——基座模型
?后训练——对齐模型
?推理训练——推理模型;;
大语言模型:后训练范式;;
大语言模型发展路线图
DeepSeekV2-V3/R1技术原理
DeepSeek效应
未来展望;
天边的两多云(国内外现状)
o模型架构:大部分企业采用已验证架构(试???成本高昂)【不敢】
o推理模型:大部分实验室仍在苦苦猜测摸索Q*/o1(OpenAI必威体育官网网址)【不知】;
DeepSeekV2主要创新
oDeepSeekMoE
oMLA
DeepSeekMoE
o稀疏激活:计算不随规模呈线性增长
o相比传统MoE:细粒度专家(共享+路由)
o路由通信改造:
?Device-LimitedRouting
?AuxiliaryLossforLoadBalance
?Token-DroppingStrategy
MLA:低秩压缩,降低KVcache占用空间;
杀手锏:性能/成本曲线|性价比;
DeepSeekV3主要创新
oInfrastructures
oMulti-TokenPrediction(MTP)
Infrastructures
o减少流水线气泡
o高效节点间All-to-All通信
oFP8训练
o低精度存储与通信;
杀手锏:性能/成本曲线|性价比;;
DeepSeekV2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积
累了大量技术创新,包括MLA、FP8训练、MoEAll-to-All通信瓶颈解决、MTP等,这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实验室,在全世界可能也只有少数几个;
DeepSeek所有模型架构上的创新均是围绕“降本增效”:在基本不损害性能前提下,尽可能通过算法挖掘和提升硬件训练和解码效率
美国采取芯片禁令(全球三级管控)策略维持自己的AI领导地位,DeepSeek算法
绕过了美国的算力护城河;
DeepSeekR1主要创新
oDeepSeek-R1-Zero:大规模RL训练,发现了RL训练的ScalingLaws,RL训练涌现“aha”时刻
o推理模型训练技术框架:4步法,有效解决了R1-Ze
您可能关注的文档
最近下载
- 2025年长沙民政职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析.docx
- 数字医疗项目可行性报告.docx
- 110kV变电站预试定检综合项目施工专项方案.doc VIP
- 2025年21年一消防工程师继续教育题 .pdf VIP
- 2024年南昌工学院单招职业技能测试题库word版.docx VIP
- 非煤矿山露天采石场主要风险分级表.pdf VIP
- Unit 2 Making a Difference Understanding ideas The Well that changed the world 课件-2023-2024学年高中英语外研版(2019)必修第三册.pptx
- 防治责任范围矢量化操作流程.docx
- 2025学年湖南省怀化市重点中学高三5月模拟(一模)考试数学试题 .pdf VIP
- 湘少版-英语-四下-Unit1_单元测试卷.pdf
文档评论(0)