我正试着和2位nvidia对接者进行分布式学习。当我尝试与两个主机,它没有工作。我该如何解决这个问题?
我试过这个命令:
horovodrun -np 3 -H localhost:1 -p 12345 python keras_mnist_advanced.py成功了,但当我试着:
horovodrun -np 3 -H localhost:1,192.168.0.20:2 -p 12345 python keras_mnist_advanced.py我发现了一个错误:
启动horovodrun任务功能失败: horovod.run.common.util.network.NoValidAddressesFound:无法连接到地址{‘lo’:('127.0.0.1',30871),‘docker0 0’:('172.17.0.1',30871),'enp0s31f6':('192.168.0.20',30871)}
发布于 2019-04-05 08:53:13
https://stackoverflow.com/questions/55427042
复制相似问题