网站大量收购闲置独家精品文档,联系QQ:2885784924

大模型时代的异构计算平台- 孙鹏v2.docx

大模型时代的异构计算平台- 孙鹏v2.docx

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大模型时代

的异构计算平台

演讲提纲

01GPT-3开启大模型时代

01

02超大模型训练对基础设施的需求

02

03软硬结合的联合优化

03

04大模型发展推动基础设施演进

04

Lj百度智能云

01

GPT-3开启大模型时代

大模型带来质的效果飞跃

32条样本即可达到BERT的效果以OpenAIGPT-3为例

32条样本即可达到BERT的效果

1750亿模型带来了质的效果飞跃

1750亿模型带来了质的效果飞跃

提升40%}提升

提升40%

}

提升

20%

大模型带来AI通用性显著提升

阅读理解新词构造多轮问答指代推理超大规模模型逐渐具备使用处理各种新任务的通用能力

阅读理解

新词构造

多轮问答

指代推理

数学计算

数学计算

SAT

SAT考试

注:基于GPT-3的实验分析

爆款应用拉动大模型训练需求

AIGC文生图

ChatGPT

模型大小(十亿参数)5005050.50.05(蓝色:语言模型;绿色:中文语言模型;橘色:多模态模型;黄色:视觉模型)

模型大小(十亿参数)

500

50

5

0.5

0.05

(蓝色:语言模型;绿色:中文语言模型;橘色:多模态模型;黄色:视觉模型)

2017/8/142018/9/182019/10/232020/11/262021/12/31

模型参数演进

Jared,etal.2020.

ScalingLaw三要素

以GPT-3为例,1750亿参数模型、3000亿词语,计算量314ZFlops

Lj百度智能云

02

超大模型训练对基础设施的需求

面向大模型的基础设施全景图

VIMER-UFO2.0ERNIE3.0超大模型

VIMER-UFO2.0

ERNIE3.0

超大模型---

AI框架---

加速库---

资源管理层--

硬件资源---

ERNIE3.0Titan

DeepSpeed/

DeepSpeed/Megatron+PyTorch

Fleet+PaddlePaddle

集合通信库(NCCL

集合通信库(NCCL,ECCL)

AI算子库(cuDNN,cuBLAS、AIAK-OP)

AI

AI平台

AI调度器存储服务

RDMA存储节点GPU

RDMA

存储节点

GPU/昆仑

从框架到集群,大模型软硬结合的全栈基础设施

大模型的变化:参数量与计算量激增A100算力312TFLOPS千亿参数需要2TB存储单卡需要32年单卡显存80GB,放不下需要分布式加速

大模型的变化:参数量与计算量激增

A100算力312TFLOPS

千亿参数需要2TB存储

单卡需要32年

单卡显存80GB,放不下

需要分布式加速

需要更多存储空间

ZFLOPs计算量

GPT-3:314ZFLOPs

算力墙·

大规模参数

175B参数

存储墙·

对模型和数据进行切分

传统训练:小模型、小样本,单卡训练

GPU0

梯度更新

梯度更新

反向计算

反向计算

前向计算

前向计算

Training

TrainingData

数据并行中主要研究方向就是梯度同步,常见评价指标如下:?加速比=多卡全局吞吐/(单卡吞吐*卡数)?

数据并行中主要研究方向就是梯度同步,常见评价指标如下:

?加速比=多卡全局吞吐/(单卡吞吐*卡数)

?收敛性=精度收敛到一定范围的时间

常见梯度同步策略:同步更新vs异步更新

策略

异步更新

同步更新

实现

节点异步上报局部梯度,更新并获取全局梯度,不等待其他节点

节点间阻塞等待,同步上报局部梯度,并同步更新全局梯度,常用AllReduce实现

加速比

无阻塞,100%

结合通信重叠等优化,在高性能网络下,可以做到95%+

收敛性

存在梯度滞后、部分更新等问题

收敛较稳定

目前大模型训练主要采用同步更新策略

梯度

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档