当未显式指定分布式培训时,我找不到关于Sag怪人行为的文档。
具体来说,
from sagemaker.tensorflow import TensorFlow
estimator = TensorFlow(
role=role,
py_version="py37",
framework_version="2.4.1",
# For training with multinode distributed training, set this count. Example: 2
instance_count=4,
instance_type="ml.p3.16xlarge",
sagemaker_session=sagemaker_session,
# Training using SMDataParallel Distributed Training Framework
distribution={"smdistributed": {"dataparallel": {"enabled": True}}},
)estimator = TensorFlow(
py_version="py3",
entry_point="mnist.py",
role=role,
framework_version="1.12.0",
instance_count=4,
instance_type="ml.m4.xlarge",
)谢谢!
发布于 2022-02-23 01:58:34
发布于 2022-02-25 13:31:45
“我不知道当未指定分发参数时会发生什么,但是instance_count >1,如下所示”-> SageMaker将在4台机器上运行您的代码。除非您有用于分布式计算的代码,否则这是无用的(简单的复制)。
当以下情况变得非常有趣:
ShardedByS3Key,您的代码将运行在您的S3数据的不同部分上,这些部分均匀地分布在机器上。这使得SageMaker培训/估计器成为运行任意共享的很好的地方--没有任何分布式任务,如文件转换和批处理推理。将机器聚集在一起还允许您启动开放源代码的分布式培训软件,如PyTorch DDP。
https://stackoverflow.com/questions/70369434
复制相似问题