Alluxio AI高性能数据访问平台-202404.pptx

下载文档

0
0
约3.17千字
约 18页
2024-09-01 发布于广西
举报
版权申诉
保障服务

Alluxio AI高性能数据访问平台-202404.pptx

1、本文档共18页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

AlluxioAI高性能数据访问平台AlluxioEnterpriseAI

数据编排平台助力云原生大数据分析和AI计算

人工智能将在2029年左右达到人类智力水平。进一步展望，至2045年，智能技术和人类文明所创造的生物机器智能的能力将被扩大10亿倍。我们正在见证全球性数据中心重组的需求井喷，这场长达十年的对现有数据中心的回收和利用，终将迈向加速计算的转型之旅。——RayKurzweil美国投资人和未来学家——黄仁勋NvidiaCEOAI/ML的竞争对企业至关重要重塑企业数据基础架构更是大势所趋

企业搭建/优化AI高性能数据访问平台所面临的挑战更高的准确性和可追溯性快速增长的数据集更快的模型更快的迭代建设周期速度GPU很稀缺GPU很昂贵GPU的利用率很低少贵低管理数据副本的复杂数据工程方案专用存储失控的云和基础设施的费用业务压力复杂且高昂的解决方案GPU的烦恼

AlluxioAI数据平台架构高性能的数据访问AI/ML框架分布式缓存数据管理企业安全与合规性能和可扩展性DevOps能力AlluxioAI数据平台全局数据访问云本地混合云跨云统一的全局视图

AlluxioAI模型训练场景2-8x 数据访问速度提升集训可扩展性高、训练任务容错性高去中心化架构，支持100亿以上对象降低数据工程复杂性和成本模型迭代更高效

Alluxio+模型部署场景7700OnPrem…Checkpoints训练数据对象存储或HDFS数据湖数据源模型训练集群OnPremise7070OnPrem…模型推理集群线上AI应用/推理集群OnPrem…推理集群 7700线上AI应用/推理集群更快部署模型上线，生产环境部署时间下降至1/2-1/3支持高并发拉取降低带宽流量竞争，减轻底层对象存储/HDFS/NAS负载WorkerWorkerWorker Worker模型线上AI应用集群无需维护本地存储系统

在机器学习工作流中部署Alluxio?可在标准的低成本存储部署运行?减少数据副本，统一数据访问，按需自动加载、缓存替换?根据可用性和成本情况在任何地方部署GPU?加快训练数据访问，GPU利用率保持90%以上?提升工程效率，降低运维成本支持超高并发的模型服务（从训练集群到推理集群）模型训练模型部署扩展到100亿对象以上，满足AI需求根据使用模式实施数据预加载?生产环境下的部署时间降低至原先的1/2-1/3?减轻网络带宽竞争，降低底层存储负载

Alluxio使用前后效果对比GPU摘要名称TeslaT4内存15GB计算能力7.5GPU利用率17%预估SM效率17%预估实现占用率69%使用TensorCore的内核时间0%类别时长(us)比例(%)平均步骤时间1,763,649,145100Kernel299,168,90517Memcpy10,521,7220.6Memset39,4590运行时间3,043,1690.17DataLoader1,446,068,95682CPU执行1,570,0760.09其他3,245,8580.18Resnet-503epochsS3Fuse使用前Resnet-503epochsS3FuseGPU摘要名称TeslaT4内存15GB计算能力7,5GPU利用率93%预估SM效率93%预估实现占用率68%使用TensorCore的内核时间0.0%类别时长(us)比例(%)平均步骤时间334,274,946100%Kernel311,847,02393Memcpy10,500,1263Memset43,9460.01运行时间3,899,2411.17DataLoader3,343,3011CPU执行1,648,3910.49其他2,992,9180.9DataLoader中的耗时从82%降至1%，GPU利用率从17%提高至93%使用后

AlluxioVS直接访问S393%GPU利用率(TensorBoard)Alluxio17min总训练时间(3epochs)17%GPU利用率(TensorBoard)S385min总训练时间(3epochs)Alluxio比S3快5倍

客户应用案例

智慧出行客户案例一客户挑战训练数据分布在多个低性能对象存储集群，带宽较小；在GPU服务器和对象存储之间搭建高性能全闪NAS作为缓存系统，从而维持高GPU利用率全闪NAS成本高昂，随着训练数据集不断增长，扩容成本无法承受全闪NAS仍需要复杂的运维工作，训练前数据从对象存储cp到NAS，全闪NAS空间用满需要手动清理客户场景和现状——智驾算法训练数据跨多对