- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2025DeepSeek-V3三个关键模块详细解读:
MLA+MoE+MTP
DeepSeek-R1的基座模型DeepSeek-V3,项目地址:
https///deepseek-ai/DeepSeek-V3
简单介绍下研究动机:现有的开源模型在性能和训练成本之间往往难以达到理想的平
衡。一方面,为了提升模型性能,需要增加模型规模和训练数据量,这会导致训练成本
急剧上升;另一方面,高效的训练和推理架构对于降低计算资源消耗至关重要。因此,
研究动机在于开发一种既能实现强大性能,又能有效控制训练成本的开源语言模型,以
推动开源模型的发展,并为更广泛的研究和应用提供支持。
1
模型架构
DeepSeek-V3的架构基于Transformer框架,旨在通过高效的推理和经济的训练实现强
大的模型性能。它继承了DeepSeek-V2中验证过的多头潜在注意力(MLA)和
DeepSeekMoE架构,并在此基础上进行了扩展和优化。下面来详细介绍下DeepSeek-
V3的三个关键模块:
多头潜在注意力MLA
MLA的核心思想是通过低秩联合压缩来减少注意力机制中的查询(query)、键
(Key)和值(Value)的维度,从而在推理时显著减少KV缓存的存储需求。这种压缩
方法不仅减少了内存占用,还通过保持性能与标准多头注意力相当,实现了高效的推
理。
结合图2和公式,简单做下MLA的解释:
1.压缩潜在向量计算,用于后续的键(Key)和值(Value)的生成;
2.将压缩后的潜在向量映射回原始维度空间以生成键;
3.应用旋转位置编码(RoPE)引入位置信息得到,拼接压缩后的键,得到;
4.将压缩后的潜在向量映射回原始维度空间得到值;
5.查询的计算方式同理。
这些步骤共同构成了MLA机制中的关键部分,通过压缩和恢复操作减少了计算和存储需
求,同时通过RoPE引入位置信息以保持注意力机制的有效性。这种方法在保持模型性能
的同时,提高了推理效率。
最后通过注意力机制计算公式得到最终的输出。
DeepSeekMoE
在DeepSeek-V3中,对于前馈网络(Feed-ForwardNetworks,FFNs)采用
DeepSeekMoE架构。与其它MoE架构(例如GShard)相比,DeepSeekMoE使用更
细粒度的专家,并且将一些专家隔离为共享专家。给定输入,其FFN输出计算如
下:
和分别表示共享专家和路由专家的数量;和分别表示第i个共
享专家和第i个路由专家;表示激活的路由专家数量;是第i个专家的门控值;
是token到专家的亲和度,表示第i个token与第i个路由专家之间的相关性或匹配程
度;是第i个路由专家的中心向量,是每个路由专家的固定表示,用于捕捉专家的特
性或专长;Topk(⋅,K)表示包含第t个Token与所有路由专家计算的亲和度分数中前K个
最高分数的集合。
无辅助损失的负载均衡:
MoE模型中,专家负载的不均衡会导致路由崩溃(routingcollapse),从而降低计算
效率。传统解决方案通常依赖辅助损失来避免负载不均衡,但过大的辅助损失可能会损
害模型性能。
简单介绍下辅助损失:辅助损失是一种显式的损失函数,用于鼓励负载均衡。它通常是
一个正则化项,添加到模型的总损失函数中,以惩罚负载不均衡的情况。具体来说,辅
助损失会计算每个专家的负载,并对负载不均衡的情况施加惩罚。
为了在负载均衡和模型性能之间取得更好的平衡,D
您可能关注的文档
- 2025 DeepSeek 火爆背后的核心技术:知识蒸馏技术.pdf
- 2025 DeepSeek:知识蒸馏技术赋能强大性能.pdf
- 2025 DeepSeek-R1详细解读:DeepSeek-R1-Zero和DeepSeek-R1分析.pdf
- DeepSeek:大模型(LLM)蒸馏技术解析:应用、实现.pdf
- DeepSeek-V3关键技术之一:DeepSeekMoE的详解.pdf
- 大模型5项核心技术:Transformer架构+微调+RLHF+知识蒸馏+安全.pdf
- 2024年全球及中国电动汽车底盘域控制单元行业头部企业市场占有率及排名调研报告.docx
- 2024年全球及中国堆场管理系统软件行业头部企业市场占有率及排名调研报告.docx
- 2024年全球及中国隧道式血压计行业头部企业市场占有率及排名调研报告.docx
- 2024年全球及中国等离子喷涂用陶瓷涂层材料行业头部企业市场占有率及排名调研报告.docx
- 2024-2030全球三端电容器行业调研及趋势分析报告.docx
- 2024年全球及中国射频功率LDMOS晶体管行业头部企业市场占有率及排名调研报告.docx
- 2024-2030全球牛磺酸及其衍生物行业调研及趋势分析报告.docx
- 2024年全球及中国高压汽车线束行业头部企业市场占有率及排名调研报告.docx
- 2024年全球及中国碳纳米管AFM探针行业头部企业市场占有率及排名调研报告.docx
- 2024年全球及中国沙库巴曲缬沙坦钠片行业头部企业市场占有率及排名调研报告.docx
- 2024-2030全球智慧文博解决方案行业调研及趋势分析报告.docx
- 2024-2030全球三端稳压IC行业调研及趋势分析报告.docx
- 2024-2030全球软端接多层瓷介电容器行业调研及趋势分析报告.docx
- 2024年全球及中国地暖管道清洗机行业头部企业市场占有率及排名调研报告.docx
最近下载
- 5年(2019-2023)中考1年模拟英语真题分项汇编(全国)专题06 阅读理解之说明文(解析版).pdf VIP
- 《会计基础》教案 第2课 会计基本假设、会计基础、会计信息质量要求和会计准则体系.doc
- 4.《望海潮》《扬州慢》比较阅读教学设计2023-2024学年统编版高中语文选择性必修下册.docx
- 熔化焊接与热切割安全技术实际操作考试.docx
- 中图版地理七下期中复习提纲.pdf VIP
- 部编版语文二年级下册全册优秀ppt课件.pptx
- 马铃薯种传土传病害.ppt VIP
- 生猪屠宰兽医卫生检验人员考试题库5份(含答案).docx
- 四川省2021年10月自考03331公共事业管理试题.doc
- 常用玻璃量器检定培训课件.pptx
文档评论(0)