我想使用异步推理端点来部署一个模型,该端点将自动缩放。但是,我找不到关于在不耗尽资源的情况下工作所需的配额的信息。
缩放是否需要某种特定类型的配额,以便可以在推理容器的不同实例上并行执行多个作业?
文档中并不清楚配额是否适用于异步推理端点。显然,它们适用于实时推理端点,但是异步推理文档似乎根本没有提到它.
发布于 2022-08-12 16:36:32
带有异步端点的AutoScaling与其他推理选项的自动标度没有什么不同,即您的AWS配额需要反映您希望缩放到的实例的正确数量。例如,如果在如下所示的异步自动标度配置中配置min和最大实例计数,则需要有5个可用实例供您使用。[ 参考文献 ]
response = client.register_scalable_target(
ServiceNamespace='sagemaker',
ResourceId=resource_id,
ScalableDimension='sagemaker:variant:DesiredInstanceCount', # The number of EC2 instances for your Amazon SageMaker model endpoint variant.
MinCapacity=0,
MaxCapacity=5
)注-我在AWS SageMaker工作,但我的意见是我自己的。
https://stackoverflow.com/questions/73278085
复制相似问题