首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用GPU Spot实例进行SageMaker分布式训练?

使用GPU Spot实例进行SageMaker分布式训练?
EN

Stack Overflow用户
提问于 2022-09-11 03:36:36
回答 1查看 59关注 0票数 0

我有一个要求,使用N1xGPU Spot实例,而不是1xN-GPU实例的分布式培训。

SageMaker分布式培训是否支持GPU Spot实例的使用?如果是,如何启用?

EN

回答 1

Stack Overflow用户

发布于 2022-09-14 22:43:39

是的,Amazon分布式培训支持spot实例,您可以以与常规培训作业相同的方式启用它。将以下参数添加到您的估计器中,并调用fit方法。

代码语言:javascript
复制
use_spot_instances=True,
max_wait = <x_in_seconds>,
max_run= <x_in_seconds>

对于您的场景,使用1个GPU的N个节点进行扩展是没有好处的,因为在节点间的GPU通信中损失了一定的时间。建议在水平缩放之前垂直缩放(首先使用多个GPU实例)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73676629

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档