有什么推荐的方法使PyTorch DataLoader (torch.utils.data.DataLoader)在分布式环境、单机和多台机器中工作?没有DistributedDataParallel就行吗?
发布于 2022-05-07 18:30:28
也许你需要把你的问题说清楚。DistributedDataParallel简称为DDP,您需要在分布式环境中使用DDP来训练模型。这个问题似乎是问如何为分布式培训安排数据集加载过程。
首先,
data.Dataloader既适合dist训练,也适用于非dist训练,通常,没有必要在这方面做些什么。
但是在这两种模式下,采样策略是不同的,您需要为数据采集器( sampler arg in data.Dataloader)指定一个采样器,采用torch.utils.data.distributed.DistributedSampler是最简单的方法。
https://stackoverflow.com/questions/72154443
复制相似问题