我最近从tf 1.4升级到了1.5。整个过程进行得很顺利,一切似乎都像以前一样。但我注意到,培训绩效已经显着下降,通常从30%下降到130%。我的模型的培训时间从大约1个小时增加到2个多小时。GPU负载也下降了约50%。
我想知道是什么导致了性能下降?我怎样才能解决这个问题。我的系统配置是:Windows7;x64;AMD;GTX-1070/8 8GB,python 3.5.2。
发布于 2018-02-01 08:00:51
我也注意到在Windows7 64位上使用TF 1.5.0的性能有明显的下降,今天刚刚试了一下。
Did升级到CUDA9.0和cuDNN 7.0。我有英特尔至强、Quadro K4000、Python3.6.4
将分别将TF降级回1.4和CUDA/cuDNN,以确保。如果我发现较低版本的速度更快,我会在TF github上开始讨论,并参考这篇文章。
编辑:
我最终在我一直在使用的几个不同的网络上测试了tensorflow 1.4.0、1.5.0、-gpu 1.4.0和-gpu 1.5.0的所有四个版本。
当我写我的原始回复时,我工作的网络只是一个相当简单的RNN网络。因此,我认为在RNN网络中,GPU的性能实际上比CPU要低!假设的原因是,我认为这是有道理的,RNN的可并行化的计算组件要少得多。GPU的执行速度非常快,因为它们包含非常多的核心,可以并行计算。实际上,当使用OpenHardwareMonitor时,图形处理器核心的总负载只在1.4.0上达到60%的峰值,在1.5.0上达到52%的峰值
因此,在这个网络上,计算机的Xeon CPU实际上做得很好。
有趣的是,从1.4.0到1.5.0仍然有一个小的减速,在-gpu版本上延长了大约25%,在常规版本上延长了大约7%。
但当我在包含卷积运算的不同网络上测试时,GPU的执行速度确实快了很多,1.5.0在-gpu和常规版本中都比1.4.0快了约10%。
所以归根结底,我认为这取决于你所使用的网络/操作的类型,决定-gpu版本是最好的,1.4.0还是1.5.0是最好的。
https://stackoverflow.com/questions/48489292
复制相似问题