我在Ubuntu下使用tensorflow和python
我阅读了here关于如何开始使用tensorflow集群的文章,我希望设置另外几台机器来运行tf并创建一个工作集群,但是我找不到任何直接的例子来说明如何将机器设置为tf工作节点。
我是否应该在独立的机器上设置它,然后将它们全部绑定到一个集群?我是否应该建立一个集群(如果是,请参考一些示例),然后将tf作为集群安装在集群上?
编辑:答案很好,符合条件,我希望了解tf集群概念与Beowulf集群协议的交互方式,以及我在这里是否需要Beowulf集群
谢谢
发布于 2017-07-22 02:05:25
我想您错过了页面底部关于如何作为参数服务器或工作进程运行tensorflow的内容,这里有两个参数服务器和两个工作进程。job_name表明它是一个参数服务器还是工人,而task_index告诉该组中的机器的索引:
# On ps0.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=ps --task_index=0
# On ps1.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=ps --task_index=1
# On worker0.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=worker --task_index=0
# On worker1.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=worker --task_index=1https://stackoverflow.com/questions/45241855
复制相似问题