网站大量收购闲置独家精品文档,联系QQ:2885784924

DataFunSummit非数据中心GPU上的大模型并行训练.pptx

DataFunSummit非数据中心GPU上的大模型并行训练.pptx

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

DataFunSummit # 2024;01

研究背景;深度学习模型参数量呈爆炸式增长,对算力系统体系结构、系统软件提出了新的要求

大规模并行与分布计算仍然是基础模型训练的主要手段,HPC与AI融合发展

大规模训练的计算、通信、存储开销巨大,对并行模式和并行效率提出更高要求;并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式

数据并行(dataparallelism,DP)是将训练数据划分到多个设备,多个设备之间按照一定规则定期同步模型参数实现并行训练的一种方式

数据并行方式下每个设备计算时都会使用有完整的模型参数

数据并行将数据切分为多份,不同份的数据由不同的设备进行处理

优点

并行程序逻辑比较容易理解

单次迭代中模型训练的数据总量增加,使得总的训练时间减少

缺点

为了保证收敛性,需要频繁的梯度同步通信;并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式

模型并行(modelparallelism,MP)训练是指将智能模型划分到多个计算单元的一种训练方式

模型并行方式下每个设备上只有模型的一部分,张量并行、流水线并行均属于模型并行

模型并行将数据切分为多份,每份数据需要所有设备进行处理;并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式

张量并行(tensorparallelism,TP)张量并行是将深度学习模型中的参数切分到不同的设备上,每个设备只负责计算部分参数,从而实现并行计算。

模型的参数分配到不同的设备上,每个设备只负责计算部分参数。

Transformer中将嵌入层和多头自注意力机制的部分参数切分到不同的设备上进行计算。;并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式

流水线并行(pipelineparallelism,PP)将模型垂直分割成多个部分(称为“流水级”),每个流水级部署在一个或多个GPU上,数据在GPU之间按流水线方式流动。

需要对流水线的操作进行调度,确保数据在各流水级间顺畅流动。

因为数据依赖关系,设备计算会出现空闲(idle),称为流水线气泡(bubble),影响整体硬件利用效率。;并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式

混合并行(hybirdparallelism)是??结合模型结构特点或智能计算系统体系结构特点,利用多种并行训练方法进行大规模深度学习模型的多维度并行训练

混合并行方式下每个设备上只有模型的一部分

混合并行将数据切为多份,每份数据需要部分或全部设备进行处理

优点

可以结合模型并行和数据并行的优点,实现高效的模型训练

应对大模型训练的主要方法

缺点

难以找到性能优异的混合并行策略,使得混合并行的优势无法发挥出来;数据中心GPU(A100,H100...)是目前最常见的加速器:

从算力性价比(单位价格能获得的算力)的角度,数据中心GPU有较大的劣势

然而仅从算力性价比的角度衡量并行训练的性价比并不准确,例如A100PCIe和A100SXM的算力性价比较为接近,然而通信带宽差距巨大,在大模型的并行训练中有较大的性能差距

数据中心GPU存在有价无市的问题

因此,研究非数据中心GPU上的大模型并行训练更具重要意义;02

研究进展;围绕非数据中心GPU上的大模型并行训练问题,开展关键技术研究

高性价比的大模型训练:

大模型并行训练的性价比建模方法

高效率的并行训练:

通信计算调度:

设计多维度通信调度方法,提高并行训练的通信效率

设计通信计算重叠的联合调度方法,提高并行训练效率

显存优化:

设计流水线并行的异构内存交换方法,缓解显存墙问题

高可编程性的并行训练:

解耦模型设计与并行训练,加强多维并行训练的可编程性;大模型并行训练的性价比建模方法

并行训练下,训练性价比可以使用单位价格能获得的吞吐量:即单位数据量所需的通讯时间加计算时间乘上硬件价格的倒数

计算时间可以简化为单位数据量算力/硬件总算力

通信时间需要根据并行训练方法(DP,PP,TP)进行估算

从算力性价比角度4090GPU最高,然而4090无法使用NVLink进行带宽提升,算力性价比次高的

3090可以通过相对便宜的NVLink提高带宽,据此搭建了3090NVLink集群;大模型并行训练的性价比建模方法

在考虑了NVLink价格的基础上,3090NVLink配置相对于全NVLink相连的A100-SXM配置及4090配置在大模型训练中的性价比有明显优势

该集群的建立仅供思路参考,3090仍有着内存不足(24G)等问题

分析方法可以适用于更多种类硬件,同期工作也有在3080GPU上进行大模型训练的尝试;通信计算调度:TriRace--面向混合

您可能关注的文档

文档评论(0)

加油,奥利给✊ + 关注
实名认证
内容提供者

无所谓。

1亿VIP精品文档

相关文档