首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么是用于云中机器学习推理的自动缩放GPU实例的最佳度量?

什么是用于云中机器学习推理的自动缩放GPU实例的最佳度量?
EN

Server Fault用户
提问于 2021-06-06 11:33:03
回答 1查看 749关注 0票数 3

我们在AWS中有一个API,它有一个GPU实例来进行推理。我们有一个具有最小和最大实例数的自动缩放器设置,但不确定应该使用哪个度量(GPU/CPU使用、RAM使用、平均延迟等)或指标组合来确定何时需要启动新实例以跟上传入请求。

在这个场景中应该使用哪些度量标准,是否有最佳实践?在我们的例子中,推理是非常密集的GPU。

EN

回答 1

Server Fault用户

发布于 2022-07-03 15:26:57

Amazon CloudWatch代理增加对NVIDIA

的支持

https://aws.amazon.com/about-aws/whats-new/2022/02/amazon-cloudwatch-agent-nvidia-metrics/

亚马逊CloudWatch代理现在支持从(亚马逊EC2)加速运行Linux的计算实例中收集NVIDIA性能指标。基于GPU的实例提供了对拥有数千个计算核的NVIDIA GPU的访问.您可以使用这些实例来加速科学、工程和渲染应用程序。客户可以安装和配置CloudWatch代理,从亚马逊EC2、现场主机和容器应用程序收集系统和应用程序指标,并将它们发送到CloudWatch。CloudWatch为您提供数据和可操作的洞察力,以监视您的应用程序并优化资源利用率。GPU指标是为那些希望在其EC2加速实例中监视GPU协处理器使用情况的用户而设计的。

因此,基于这些指标,您可能希望监视:

  1. nvidia_smi_utilization_gpu过去运行GPU上一个或多个内核的时间百分比。
  2. nvidia_smi_utilization_memory在过去的示例期间读取或写入全局(设备)内存的时间百分比。
票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/1065865

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档