- 1、本文档共68页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大模型时代
的异构计算平台
演讲提纲
01GPT-3开启大模型时代
01
02超大模型训练对基础设施的需求
02
03软硬结合的联合优化
03
04大模型发展推动基础设施演进
04
Lj百度智能云
01
GPT-3开启大模型时代
大模型带来质的效果飞跃
32条样本即可达到BERT的效果以OpenAIGPT-3为例
32条样本即可达到BERT的效果
1750亿模型带来了质的效果飞跃
1750亿模型带来了质的效果飞跃
提升40%}提升
提升40%
}
提升
20%
大模型带来AI通用性显著提升
阅读理解新词构造多轮问答指代推理超大规模模型逐渐具备使用处理各种新任务的通用能力
阅读理解
新词构造
多轮问答
指代推理
数学计算
数学计算
SAT
SAT考试
注:基于GPT-3的实验分析
爆款应用拉动大模型训练需求
AIGC文生图
ChatGPT
模型大小(十亿参数)5005050.50.05(蓝色:语言模型;绿色:中文语言模型;橘色:多模态模型;黄色:视觉模型)
模型大小(十亿参数)
500
50
5
0.5
0.05
(蓝色:语言模型;绿色:中文语言模型;橘色:多模态模型;黄色:视觉模型)
2017/8/142018/9/182019/10/232020/11/262021/12/31
模型参数演进
Jared,etal.2020.
ScalingLaw三要素
以GPT-3为例,1750亿参数模型、3000亿词语,计算量314ZFlops
Lj百度智能云
02
超大模型训练对基础设施的需求
面向大模型的基础设施全景图
VIMER-UFO2.0ERNIE3.0超大模型
VIMER-UFO2.0
ERNIE3.0
超大模型---
AI框架---
加速库---
资源管理层--
硬件资源---
ERNIE3.0Titan
DeepSpeed/
DeepSpeed/Megatron+PyTorch
Fleet+PaddlePaddle
集合通信库(NCCL
集合通信库(NCCL,ECCL)
AI算子库(cuDNN,cuBLAS、AIAK-OP)
AI
AI平台
AI调度器存储服务
RDMA存储节点GPU
RDMA
存储节点
GPU/昆仑
从框架到集群,大模型软硬结合的全栈基础设施
大模型的变化:参数量与计算量激增A100算力312TFLOPS千亿参数需要2TB存储单卡需要32年单卡显存80GB,放不下需要分布式加速
大模型的变化:参数量与计算量激增
A100算力312TFLOPS
千亿参数需要2TB存储
单卡需要32年
单卡显存80GB,放不下
需要分布式加速
需要更多存储空间
ZFLOPs计算量
GPT-3:314ZFLOPs
算力墙·
大规模参数
175B参数
存储墙·
对模型和数据进行切分
传统训练:小模型、小样本,单卡训练
GPU0
梯度更新
梯度更新
反向计算
反向计算
前向计算
前向计算
Training
TrainingData
数据并行中主要研究方向就是梯度同步,常见评价指标如下:?加速比=多卡全局吞吐/(单卡吞吐*卡数)?
数据并行中主要研究方向就是梯度同步,常见评价指标如下:
?加速比=多卡全局吞吐/(单卡吞吐*卡数)
?收敛性=精度收敛到一定范围的时间
常见梯度同步策略:同步更新vs异步更新
策略
异步更新
同步更新
实现
节点异步上报局部梯度,更新并获取全局梯度,不等待其他节点
节点间阻塞等待,同步上报局部梯度,并同步更新全局梯度,常用AllReduce实现
加速比
无阻塞,100%
结合通信重叠等优化,在高性能网络下,可以做到95%+
收敛性
存在梯度滞后、部分更新等问题
收敛较稳定
目前大模型训练主要采用同步更新策略
梯度
文档评论(0)