我有四块GPU卡,CPU对它们的图像预处理速度都不够快。队列很快就会耗尽,而且大多数时间卡都是空闲的。有没有一种方法可以将QueueRunner放在这四块GPU卡中的一块上,以便一块卡进行预处理并形成队列,而其他三块卡实际训练模型?
发布于 2016-11-20 20:06:15
是的,这应该是可能的。您可以将预处理python函数包装在tf.py_func中,创建一个TF并使用with tf.device("gpu:0"):将其放到所请求的gpu中,在那里创建一个队列并在其他gpu上使用出队op。
https://stackoverflow.com/questions/40703718
复制相似问题