网站大量收购独家精品文档,联系QQ:2885784924

浅析GPU资源监控及虚拟化.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

浅析GPU资源监控及虚拟化

【摘要】在数字化高度普及的时代,智能AI能力的应用已成为企业提升服务质量和效率的重要手段,GPU强大的计算能力可以加速自然语言处理模型的训练和推理过程,将GPU算力高效的应用到合适的场景中,可以为企业提供低成本且高质量的服务。但因现在客观存在GPU算力供应链卡脖子问题,GPU高端卡获取途径有限,中低端卡供应也出现供不应求,算力价格持续走高,算力资源尤为珍贵,在此背景下,GPU资源的高效利用显得尤为重要。如何高效利用GPU资源、提高资源利用率、降低系统的运营成本,从而以更低的成本为客户提供更好的服务,成为近年金融企业聚焦的一个热点。考虑提高GPU使用效率的方案,主要有加强资源监控,避免资源闲置以及做好资源使用、进行GPU池化和虚拟化。

一、GPU资源监控

1.1GPU监控

为了提高GPU资源利用效率,必须得做好对资源使用效率的监控,避免应用程序对于GPU资源使用的“高配低效”。一些应用开发厂商或者维护人员,为了保证自己的程序运行,可能存在“圈地”思想,放大对于资源需求的评估,但实际运行并不需要那么大的资源,或者程序并非7*24小时都在相对高负荷运行,而是每天大多数时间段均空负载处于闲置状态。因此算力管理员就需要做好GPU资源监控,以便更好的掌握资源使用情况,及时评估和管理珍贵的GPU算力资源。

此外,GPU的监控对于提升应用能力,还能起到更多正向作用。通过GPU监控,确保模型训练和推理过程中GPU资源的稳定供应,加快模型的训练和更新速度,及时调整风险评估策略。通过监控GPU资源的使用情况,优化相关模型的训练和部署。

保障系统稳定性:银行的许多业务关键系统如风险评估、欺诈检测等依赖GPU的强大计算能力来处理大量复杂数据。通过实时监控GPU的温度、使用率、内存占用等指标,运维人员可及时发现潜在问题,避免系统崩溃或性能下降,确保银行业务的连续稳定运行。

优化资源分配:银行通常有多种业务同时运行,对GPU资源的需求各异。监控GPU的使用情况有助于了解不同业务在不同时段对GPU资源的占用,从而根据业务的优先级和资源需求动态分配GPU资源,提高资源利用率,降低运营成本。

提升业务效率:在人工智能和大数据分析广泛应用于银行业务的背景下,快速准确的GPU监控能够帮助银行更快地训练和部署机器学习模型,如信贷风险评估模型、市场趋势预测模型等,进而提升业务决策的速度和准确性,增强银行的市场竞争力。

1.2GPU监控的常用工具和技术

目前金融客户市场中主流的GPU仍然是英伟达,国内一些国产GPU也开始有了应用,国产GPU有图形渲染GPU和高性能计算GPU(GPGPU)两种。其中图形渲染GPU例如寒武纪MLU370、摩尔线程MTTS80;另一类高性能计算GPU,例如壁仞科技BR100、沐曦MXNAI和MXCGPGPU、中科曙光DCU以及近年生态稳步提升的华为昇腾显卡等。

目前针对GPU的监控,有硬件厂家自己提供的产品方案以及开源方案两种,例如NVIDIA官方提供的nvidia-smi工具,可用于查询和监控N卡GPU的状态信息,包括GPU的使用率、内存使用情况、温度、风扇转速等基本指标,硬件厂家提供的监控方案,通常有一定的局限性,只能提供针对自己的产品的监控能力。另外,一些开源方案例如GPUSTAT,则是基于Python的轻量级命令行工具,利用nvidia-smi获取数据,并以命令行输出形式呈现GPU的状态和性能,支持自定义刷新率、选择要监视的GPU以及与其他监控系统集成,适用于自动化脚本和持续集成流程。目前国内一些平台监控GPU资源采用此方案较多,通过开源Prometheus配置采集GPU的相关指标数据,配合Grafana进行图形化展示,将采集到的GPU数据以直观的图表形式展示,采用此方案的通常打造成一个通用的平台,提供多种GPU的监控能力。

以某城商行采用的监控方案为例,其企业探索采用的Prometheus结合Grafana监控方案,是在GPUKubernetes集群中,通过部署kube-prometheusstack构建监控体系实现监控。其主要原理还是通过容器搭建管理平台,并通过容器的agent采集,向平台汇总数据如下:(a)每个运行vGPU组件的Kubernetes节点上部署DCGM-Exporter,定期从GPU设备中获取数据并通过HTTP接口暴露出来供Prometheus进行读取访问。创建ServiceMonitor资源对象,定义如何通过vGPU调度器收集指标。(b)部署了Prometheus定期抓取包括GPU算力、显存、温度等各种指标数据,将其存储在时间序列数据库中。(c)系统集成了Grafana可视化展示工具,配置Prometheus为数据源,并导入专为GPU监控设计的仪表板,提供了针对虚拟化GPU

文档评论(0)

150****5147 + 关注
实名认证
内容提供者

二级建造师持证人

分享知识,传播快乐!

领域认证该用户于2024年03月19日上传了二级建造师

1亿VIP精品文档

相关文档