网站大量收购独家精品文档,联系QQ:2885784924

2024大模型混合云十大创新技术白皮书5-正式版.ppt

2024大模型混合云十大创新技术白皮书5-正式版.ppt

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

践行深度用云大模型混合云十大创新技术

编制委员会主编单位华为云计算技术有限公司编委顾问尚海峰胡玉海李金锋尤鹏编审组成员参编主要专家徐曹韩罗强朝坤翕杨志勇王飞徐俊王马晨奇徐礼锋许田立王立王宁徐田袁军红李品新马红伟麦宇庭唐盛军孙思东党致远黄立王志宇蒋东生赵培森王兴昊刘静赵军张秦涛吴信威朱艺徐航曾祖祥王荣仕毛金哲张煜金王钊瑞蒋昱鑫王冰责任编辑(排名不分先后)

目录314-18AI-Native存储创新三层架构,数据快存快恢105-09多样性算力调度全局统筹,提升算力效率419-23增强AI网络算网协同,高吞吐无阻塞网络210-13云边协同海量边缘管理,模型边用边学524-28算子加速融合优化,实现高效算子供应

839-42精细视觉神经网络对齐细节,精准识别629-34全链路数据工程8大创新工具,构建高质量数据集943-46无感断点续训分钟级感知恢复,保障长稳运行735-38统一数据编码创新多模数据统一编码,预测最优解1047-54安全护栏立体检测,智能拦截

多样性算力调度全局统筹,提升算力效率

1.1业界难题在AI场景中,CPU扮演着指挥统筹与核心控制的角色,GPU/NPU负责核心AI大模型的并行高性能训练与推理计算。考虑到算力的供应多样性与长期可获得性,以x86和ARM为代表的通用算力和以GPU和NPU为代表的AI算力,将长期协同发展与配合使用,因此需要考虑异构算力的统一调度问题:AI资源碎片问题:单个训练/推理作业所需要的AI算力卡数典型值为1、2、4、8、n*8,大于8卡的作业,需运行在完全空闲的节点上。随着多个任务的异步结束,集群中会出现资源碎片,即便整体上存在足够的资源,需要多卡的作业也无法运行,导致资源利用率降低。推理算力利用率提升的挑战异构算力管理的挑战AI算力多团队共享问题:集团内部需要考虑不同部门多个彼此隔离的AI小集群可能导致的整体资源利用率较低的问题,资源池化按需调度是提升资源利用率的有效办法。资源管理:集群管理的资源从通常的CPU+内存,变为CPU+内存+AI算力卡等多种异构硬件管理。除了多种型号的AI算力卡、同型号多代AI算力卡、还有整卡与切分卡的统一管理调度。算力复用:在推理场景,需要实现推理卡的多路任务并行复用,即多个算法共用一张AI卡,以提升算力利用率。拓扑感知:大模型分布式训练过程中,AI算力卡之间或AI服务器之间的带宽并不完全一致。因此调度时,必须考虑异构资源的拓扑关系,才能获得最佳的训练效率。分布式训练调度的挑战资源争夺冲突死锁:传统容器调度逻辑都是按照单个容器依次调度。而分布式AI训练容器必须同时运行以进行集合通信,且只能同时调度成功或调度失败。否则,多个分布式作业在资源调度层面出现争抢并导致死锁,所有训练任务都无法得到有效调度。06

1.2多样性算力调度:全局统筹,提升算力效率华为云多样性算力调度基于云原生集群管理框架,并融入面向AI场景的Volcano调度框架,实现分布式AI任务调度增强。同时还针对算力资源的利用率提升做了系列创新优化,包括:逻辑子池、队列优先级、拓扑感知、整柜亲和、算力切分等。多样性算力调度模型训推模型开发模型训练模型推理训练推理任务丰富调度策略高效任务调度资源调度容器调度调度控制模块调度策略模块CPUGPUNPUAI任务实例AI任务实例AI任务实例CPU资源池GPU资源池NPU资源池CPUCPUCPUGPUGPUNPUNPUNPUNPU统一纳管异构算力资源通用服务器通用服务器AI服务器节点3AI服务器节点4AI服务器节点5节点1节点2图1.1华为云多样性算力调度多样算力资源池化传统的K8s集群管理系统在启动容器时,会将负载调度至合适的节点。但其调度的维度仅支持“CPU+内存”,无法识别和调度“GPU/NPU”这种异构算力资源。07

分布式AI训练的组调度2启动容器Master节点在分布式AI训练中,需要通过容器组调度算法,来避免多个分布式任务因争抢资源而导致任务死锁。华为云设计了Volcano调度框架,实现了组调度功能并做了更多能力增强:过滤节点3调节-扩展插件SchedExtender调度器Node节点1启动容器统一的作业管理:提供作业的全生命周期管理,支持所有主流的计算框架,如Pytorch、MPI、Horovod、Tensorflow、Spark-op-erator、Flink-operator等。异构资源-扩展DevicePluginKubelet5启动+配置4分配“异构资源”容器运行时RunTime容容器器丰富的高阶调度策略:公平调度、任务拓扑调度、基于SLA调度、作业抢占、回填、弹性调度、混部等。图1.2GPU/NPU异构资源识别和调度因此华为云引入了K8s的Devic

文档评论(0)

陈小颜童鞋 + 关注
实名认证
内容提供者

要是文档已下架,仅可试读部分内容的,请私信我 本账号发布文档部分原创,部分来源于互联网和个人收集,仅用于技术分享交流,版权为原作者所有,如果侵犯了您的知识版权,请提出指正,将立即删除相关资料。

版权声明书
用户编号:7066016145000016

1亿VIP精品文档

相关文档