我想通过使用分布式训练来缩短使用SageMaker内置对象检测算法(实例计数> 1)的训练作业的时间。我试图通过将培训数据分割成多个RecordIO文件而不是仅仅一个文件来做到这一点。然后我用ShardedByS3Key作为火车频道。“在火车通道中找到多个RecordIO文件”此错误导致培训作业失败。目前只支持单个RecordIO文件。
这使我相信,该算法不支持通过分布式训练来加快训练时间。我说的对吗?还是有其他方法可以利用多个培训实例来加快培训工作的持续时间?
发布于 2022-09-14 22:13:41
您应该能够在多GPU和多机设置上运行对象检测算法,以便进行分布式培训。只需将实例的数量增加到>1。对于记录-IO格式,跨GPU的数据共享将由SageMaker负责。还请确保使用支持的实例类型-
https://docs.aws.amazon.com/sagemaker/latest/dg/object-detection.html
https://stackoverflow.com/questions/73693296
复制相似问题