我正在尝试获得一些关于在GCP上为ML培训设置计算集群的最佳方法的建议。我目前正在处理的作业已经超过了我可以附加到一个V100实例的最大8个GCP图形处理器的能力,所以我想运行两个实例,并在所有16个GPU上运行一个分布式作业。我的代码库已经能够做到这一点,我只需要弄清楚正确配置VPC网络的细节。我做了很多搜索,但我似乎找不到来自google的任何与实例之间的高速通信相关的信息。为了让这个集群有效地运行,我需要能够非常快速地同步节点之间的渐变。对于大多数内部ML HPC服务器,使用100 is以太网或Infiniband。GCP是否提供了实现这种类型的低延迟、高吞吐量的实例间通信的功能?提前感谢您的帮助。
编辑:
为澄清起见,在运行iperf3时,内部IP上的实例之间的速度约为200~ MB/秒。这样的速度将会达到疯狂的瓶颈。使用现代的Infiniband连接服务器(通常用于HPC和深度学习集群),您将看到20 be /秒以上的数据。200MB/秒将导致跨节点的性能负向扩展(大量扩展)。目前的瓶颈仅仅是同一台机器上GPU之间的p2p速度(在V100s的情况下,他们使用的NVSwitch设置类似于带有SXM2的dgx-2,所以它非常快)。节点之间的任何网络都需要与该速度竞争。我认为GCP没有为HPC类型的工作负载提供更快的网络连接?
发布于 2019-07-09 04:00:30
如果您看到的不是超快网络,我会确保两台机器在相同地域和区域的相同VPC中。确保机器之间的防火墙规则允许流量流动。
发布于 2019-07-10 22:17:11
当您使用Premium Tier网络时,您的流量将使用谷歌高性能网络。在这种情况下,您只需要确保您的机器位于相同的区域,这将满足您以上的速度要求。
https://stackoverflow.com/questions/56941172
复制相似问题