目前,我正在实现一个大型自定义模型,并参考tensorflow附带的CIFAR 10的多gpu示例。然而,我在此基础上编写的代码并不整洁,而且容易出错。例如,我必须找到每个可训练变量并添加"with tf.device('/cpu:0')“。
有没有更高效/更干净的方法来适应多gpu执行?
非常感谢您的支持。
发布于 2017-01-23 03:36:38
这是一个来自Rafal的example
你在塔楼上做一个循环,主体把塔构造成with tf.device(assign_to_gpu(i))。函数assign_to_gpu以不同的方式对待变量,并将它们赋给"ps-device“。
注意:我们发现,当GPU连接到p2p时,当变量保持为gpu:0而不是cpu:0时,训练速度更快
https://stackoverflow.com/questions/41794545
复制相似问题