文章/答案/技术大牛

发布

社区首页 >问答首页 >什么是用于云中机器学习推理的自动缩放GPU实例的最佳度量？

问什么是用于云中机器学习推理的自动缩放GPU实例的最佳度量？
EN

Server Fault用户

提问于 2021-06-06 11:33:03

回答 1查看 749关注 0票数 3

我们在AWS中有一个API，它有一个GPU实例来进行推理。我们有一个具有最小和最大实例数的自动缩放器设置，但不确定应该使用哪个度量(GPU/CPU使用、RAM使用、平均延迟等)或指标组合来确定何时需要启动新实例以跟上传入请求。

在这个场景中应该使用哪些度量标准，是否有最佳实践？在我们的例子中，推理是非常密集的GPU。

autoscaling

gpu

amazon-web-services

回答 1

Server Fault用户

发布于 2022-07-03 15:26:57

Amazon CloudWatch代理增加对NVIDIA

的支持

https://aws.amazon.com/about-aws/whats-new/2022/02/amazon-cloudwatch-agent-nvidia-metrics/

亚马逊CloudWatch代理现在支持从(亚马逊EC2)加速运行Linux的计算实例中收集NVIDIA性能指标。基于GPU的实例提供了对拥有数千个计算核的NVIDIA GPU的访问.您可以使用这些实例来加速科学、工程和渲染应用程序。客户可以安装和配置CloudWatch代理，从亚马逊EC2、现场主机和容器应用程序收集系统和应用程序指标，并将它们发送到CloudWatch。CloudWatch为您提供数据和可操作的洞察力，以监视您的应用程序并优化资源利用率。GPU指标是为那些希望在其EC2加速实例中监视GPU协处理器使用情况的用户而设计的。

因此，基于这些指标，您可能希望监视：

nvidia_smi_utilization_gpu过去运行GPU上一个或多个内核的时间百分比。
nvidia_smi_utilization_memory在过去的示例期间读取或写入全局(设备)内存的时间百分比。

票数 0

页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://serverfault.com/questions/1065865

复制

相似问题

问什么是用于云中机器学习推理的自动缩放GPU实例的最佳度量？
EN

回答 1

Server Fault用户

Amazon CloudWatch代理增加对NVIDIA

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是用于云中机器学习推理的自动缩放GPU实例的最佳度量？EN

回答 1

Server Fault用户

Amazon CloudWatch代理增加对NVIDIA

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是用于云中机器学习推理的自动缩放GPU实例的最佳度量？
EN