我有一个要求,使用N1xGPU Spot实例,而不是1xN-GPU实例的分布式培训。
SageMaker分布式培训是否支持GPU Spot实例的使用?如果是,如何启用?
发布于 2022-09-14 22:43:39
是的,Amazon分布式培训支持spot实例,您可以以与常规培训作业相同的方式启用它。将以下参数添加到您的估计器中,并调用fit方法。
use_spot_instances=True,
max_wait = <x_in_seconds>,
max_run= <x_in_seconds>对于您的场景,使用1个GPU的N个节点进行扩展是没有好处的,因为在节点间的GPU通信中损失了一定的时间。建议在水平缩放之前垂直缩放(首先使用多个GPU实例)。
https://stackoverflow.com/questions/73676629
复制相似问题