问增加GPU降低训练速度
EN

Data Science用户

提问于 2019-09-03 07:12:55

回答 1查看 209关注 0票数 0

我正在使用分布式的Tensorflow和镜像策略。我正在训练基于自定义估计的VGG16。但是，随着GPU数量的增加，培训时间也随之增加。据我所知，GPU的利用率约为100%，似乎输入功能可以将数据输入到GPU。由于所有的GPU都在一台机器上，有什么线索可以发现这个问题吗？这是计算图，我会想到Groups_Deps引起的问题。

tensorflow

gpu

distributed

回答 1

Data Science用户

发布于 2019-09-03 17:25:48

使用GPU可以加快培训速度，但随着GPU数量的增加，您的培训将被分发，这意味着您的数据必须移动到几个GPU中，而这些GPU的带宽成本很高。我将分析培训，查看将数据移动到GPU和et结果所花费的时间。另外，像这样的训练很难同步。

如果您正在使用tensorflow 1.14+，请尝试将分发方法更改为"MirroredStrategy“。在我发现的多个GPU中，这往往更好地工作。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/58586

复制

相似问题

问增加GPU降低训练速度
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问增加GPU降低训练速度EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问增加GPU降低训练速度
EN