此文章建议有三种可供选择的分布式培训
然后,本教程建议下面的代码在Cloud引擎上使用异步更新执行数据并行培训,该引擎的行为是“如果在10个工作节点中分发10,000个批,每个节点大约在1,000批上工作”。
但是,尚不清楚代码的哪一部分实际上指定这是使用异步更新的数据并行培训。如果您使用自定义tf.estimator在分布式培训模式下运行ML引擎,这仅仅是它的默认吗?
发布于 2017-08-31 18:39:09
简单的回答是,tf.estimator目前主要是围绕数据并行培训(2)构建的。
您只需在代码中使用with tf.device()语句就可以得到模型并行培训。
您可以尝试使用SyncReplicasOptimizer并可能完成同步培训(1)。
所有这些都一般适用于tf.estimator;对于CloudML引擎来说没有什么不同。
https://stackoverflow.com/questions/45986578
复制相似问题