徐可甲：面向智算服务构建下一代可观测Pipeline-39页.docx

下载文档

0
0
约9.24千字
约 73页
2024-12-06 发布于北京
举报
版权申诉
保障服务

徐可甲：面向智算服务构建下一代可观测Pipeline-39页.docx

1、本文档共73页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

演讲人：徐可甲

01云原生智算服务关键技术

02智算服务可观测需求与挑战

04智算服务可观测Pipeline

智算服务可观测Pipeline技术实践

03下一代可观测Pipeline

05未来展望

云原生智算服务关键技术

数据

准备

模型推理开发

模型推理

开发探索

持续发布弹性

模型构建

模型

模型训练

?AI在计算机视觉、语音、

?AI在计算机视觉、语音、NLP等领域取得突破，已深入影响各行各业，并催生出了自动驾驶等领域。

?AI服务上云形成趋势，深度学习/AIGC应用广泛采用容器等云原生技术。

深度学习的特点

?端到端流水线–Rawdatain,executablemodelout

?持续迭代优化–梯度下降,超参数调优,Prompt工程

?任务长时运行–小时/天/周/月

?消耗海量数据和大量算力

大模型对基础设施服务能力的挑战是阶跃式的。

对“规模、性能、效率”的要求，成为LLM/AIGC快速落地的高门槛。

模型参数量每年10倍指数级增长

效率

?资源效率：高利用率、弹性可扩展

?工程效率：持续快速迭代

性能

?训练：单卡-分布式、混合并行加速

?推理：模型优化、服务质量Qos

规模

?算力：千卡GPU任务，万卡集群

?数据：PB级存储，TB级吞吐

?网络：800Gbps–3.2TbpsRDMA

工程

异构硬件

AI工程通常需要多样化的硬件支持。

设备插件灵活扩展

支持各种设备插件，允许轻松将不同类型的硬件资源集成到集群中。

动态分布式计算

AI工程中的计算需求常常具有高度的动态性，如模型训练和推理负载会随数据量和算法复杂度变化。

资源隔离性

AI工程通常涉及多个团队，不同任务需要独立的资源隔离，避免资源竞争导致性能下降。

环境一致性

AI工程需要在不同环境（如开发、测试和生产环境）中保持一致性。

快速迭代

AI模型和算法需要频繁更新和快速迭代。

资源调度与弹性伸缩

K8s强大的调度能力，根据实际负载自动调整Pod数量，实现计算资源的动态分配与回收。

命名空间与资源配额

通过命名空间和资源配额确保不同任务的资源独立性。

容器化应用管理

通过容器化技术，确保在不同环境中运行的AI应用具有一致的运行环境，避免因环境差异引发的问题。

持续集成与持续部署（CI/CD）

与CI/CD工具的集成，支持自动化构建、测试和部署流程。

计算CPU、内存GPUDevice-Plugin网络RDMA网络

计算

CPU、内存

GPUDevice-Plugin

网络

RDMA网络

存储

海量小文件数据集读取

Checkpoint大文件读写

AI工程向云原生架构演进传统架构?资源管理分散

AI工程向云原生架构演进

传统架构

?资源管理分散、资源利用率低

?无法弹性伸缩

?生产流程割裂、效率低

?团队协作、共享困难

云原生架构

?资源池化：弹性、灵活

?生产流程高效闭环

?可观测手段丰富

?多角色协同，加速迭代

开发模型训练模型发布模型

AI工程平台

GPU池

存储池

云原生架构的容器服务支撑AI智算基础底座

在云原生架构的Kubernetes集群中管理调度GPU、NPU、RDMA等高性能异构资源，以容器化方式开发、运行AI、大数据任务，部署AI推理服务。

更快的创新与迭代更高的稳定性到2025年，接近50%的企业内部的数据密集型或性能密集型计算工作负载都将迁移到云原生架构上。

更快的创新与迭代

更高的稳定性

更弹性的算力

云原生AI利用云计算的弹性资源、异构算力以及容器、自

云原生AI

利用云计算的弹性资源、异构算力以及容器、自动化、微服务等云原生技术，提升AI/ML的工程效率，降低整体成本，提高可扩展性，并实现端到端的解决方案。

统一资源管理

持续优化利用率

统一任务调度

保障规模与性能

AI异构工作负载

算法与场景

框架

TensorflowPytorch

TensorflowPytorchDeepspeedHuggingfaceLangchain

统一工作流，

统一工作流，统一调度

Docker

DockerKubernetesKubeflowKserveFluidMLFlow

统一管理

您可能关注的文档

文档评论（0）

资源共享 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6242020230000010

1亿VIP精品文档

更多 >

徐可甲：面向智算服务构建下一代可观测Pipeline-39页.docx