我目前正在使用SageMaker来训练伯特,并试图提高伯特的训练时间。我在AWSg4dn.12xLargeInstance类型上使用PyTorch和Huggingface。
然而,当我运行并行训练,这是远远没有实现线性改进。我正在寻找一些关于分布式培训的提示,以改善SageMaker中的伯特培训时间。
发布于 2022-11-08 01:12:31
您可以使用SageMaker分布式数据并行(SMDDP)来运行对多节点和多You设置的培训。有关基于伯特的培训示例,请参阅以下链接
这是HuggingFace - https://github.com/aruncs2005/pytorch-ddp-sm-example的
请参阅这里的文件一步一步的说明。
https://docs.aws.amazon.com/sagemaker/latest/dg/data-parallel-modify-sdp-pt.html
https://stackoverflow.com/questions/73828741
复制相似问题