- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DeepSeek系统软件优化总结
翟季冬
清华大学计算机系
>1<
DeepSeekV3公开的预训练成本
按照H800GPU每小时每卡2美元租赁成本,全部训练成本:5,576,000美元
不包括前期探索模型架构、消融实验等开销
预训练时间估计:
2048张H800计算:~54天
10000张H800计算:~11天
DeepSeek公开的V3训练成本
>2<
主要模型参数
DeepSeekV3模型参数:
671B参数(GPT-3:175B、GPT-4:1.76T?)
每个token激活37B参数、~5.5%
61层Transformer、Hiddendimension:7168
FFNàMoE:1共享专家(sharedexpert)+256路由专家(routedexperts)
每个token激活8个路由专家
>3<
DeepSeek模型架构
DeepSeek架构:MLA(multi-headlatentattention)+MoE(mixtureof
experts)
>4<
DeepSeekMoE架构
DeepSeekMoE架构
共享专家+路由专家MoE架构
>5<
并行训练框架
并行训练框架HAI-LLM:IB
50GB/s
流水线并行:16路
专家并行:64路(跨8个物理节点)
数据并行:ZeRO-1
NVLink
张量并行:No(通信开销大)160GB/s
网络拓扑结构
>6<
主要系统优化方法
负载均衡
通信优化
内存优化
计算优化
>7<
负载均衡优化
负载均衡是MoE训练的一个主要挑战
提出Auxiliary-Loss-FreeLoadBalancing
核心思想:引入一个ExpertBias
è保证专家负载均衡
Bias只影响专家路由、不产生任何梯度影响
动态调整ExpertBias
降低bias:如果对应专家overloaded
增大bias:如果对应专家underloaded
您可能关注的文档
- 2024年度隐私合规监管趋势报告.pdf
- 2025年企业文化工作计划.pptx
- 2025年生态型媒体平台价值研究报告-艾瑞咨询-2025-56页.pdf
- 2025十大焦点问题:基金经理们怎么看?.pdf
- 2025中国消费级AI硬件价值洞察及Geek 50榜单报告.pdf
- DeepSeek R1的思考和启发_邱锡鹏.pdf
- DeepSeek本地部署,再也不怕服务器崩了!.pdf
- DeepSeek指导手册从入门到精通-25页.pdf
- 从DeepSeek看大模型软硬件优化_戴国浩.pdf
- 大规模强化学习技术原理与大模型技术发展研判_刘知远.pdf
- 2025年考研中医综合真题及答案.docx
- 2025年诊断题库考研资料.docx
- 广东省汕头市潮南区高一上学期1月期末考试物理图片版.docx
- _增值税及附加税费申报表(一般纳税人适用)_及其附列资料填写说明.pdf
- 2024年毕马威中国金融科技企业双50报告.pdf
- 《机电设备维修与维护(第2版)》高职全套教学课件.pptx
- 微习惯(瘦身篇).docx
- 湘少版三年级下册英语全册新质教学课件(配2025年春改版教材).pptx
- 计算机行业:数据要素:制度+机构落地,数字经济开发进行时(202311).pdf
- 空气悬架行业深度:商业模式、竞争格局、产业链及相关公司深度梳理(202209).pdf
文档评论(0)