我们在AWS中有一个API,它有一个GPU实例来进行推理。我们有一个具有最小和最大实例数的自动缩放器设置,但不确定应该使用哪个度量(GPU/CPU使用、RAM使用、平均延迟等)或指标组合来确定何时需要启动新实例以跟上传入请求。
在这个场景中应该使用哪些度量标准,是否有最佳实践?在我们的例子中,推理是非常密集的GPU。
发布于 2022-07-03 15:26:57
的支持
https://aws.amazon.com/about-aws/whats-new/2022/02/amazon-cloudwatch-agent-nvidia-metrics/
亚马逊CloudWatch代理现在支持从(亚马逊EC2)加速运行Linux的计算实例中收集NVIDIA性能指标。基于GPU的实例提供了对拥有数千个计算核的NVIDIA GPU的访问.您可以使用这些实例来加速科学、工程和渲染应用程序。客户可以安装和配置CloudWatch代理,从亚马逊EC2、现场主机和容器应用程序收集系统和应用程序指标,并将它们发送到CloudWatch。CloudWatch为您提供数据和可操作的洞察力,以监视您的应用程序并优化资源利用率。GPU指标是为那些希望在其EC2加速实例中监视GPU协处理器使用情况的用户而设计的。
因此,基于这些指标,您可能希望监视:
https://serverfault.com/questions/1065865
复制相似问题