我正在使用分布式的Tensorflow和镜像策略。我正在训练基于自定义估计的VGG16。但是,随着GPU数量的增加,培训时间也随之增加。据我所知,GPU的利用率约为100%,似乎输入功能可以将数据输入到GPU。由于所有的GPU都在一台机器上,有什么线索可以发现这个问题吗?这是计算图,我会想到Groups_Deps引起的问题。

发布于 2019-09-03 17:25:48
使用GPU可以加快培训速度,但随着GPU数量的增加,您的培训将被分发,这意味着您的数据必须移动到几个GPU中,而这些GPU的带宽成本很高。我将分析培训,查看将数据移动到GPU和et结果所花费的时间。另外,像这样的训练很难同步。
如果您正在使用tensorflow 1.14+,请尝试将分发方法更改为"MirroredStrategy“。在我发现的多个GPU中,这往往更好地工作。
https://datascience.stackexchange.com/questions/58586
复制相似问题