文章/答案/技术大牛

发布

问GCP实例间高速通信
EN

Stack Overflow用户

提问于 2019-07-09 03:08:14

回答 2查看 495关注 0票数 0

我正在尝试获得一些关于在GCP上为ML培训设置计算集群的最佳方法的建议。我目前正在处理的作业已经超过了我可以附加到一个V100实例的最大8个GCP图形处理器的能力，所以我想运行两个实例，并在所有16个GPU上运行一个分布式作业。我的代码库已经能够做到这一点，我只需要弄清楚正确配置VPC网络的细节。我做了很多搜索，但我似乎找不到来自google的任何与实例之间的高速通信相关的信息。为了让这个集群有效地运行，我需要能够非常快速地同步节点之间的渐变。对于大多数内部ML HPC服务器，使用100 is以太网或Infiniband。GCP是否提供了实现这种类型的低延迟、高吞吐量的实例间通信的功能？提前感谢您的帮助。

编辑：

为澄清起见，在运行iperf3时，内部IP上的实例之间的速度约为200~ MB/秒。这样的速度将会达到疯狂的瓶颈。使用现代的Infiniband连接服务器(通常用于HPC和深度学习集群)，您将看到20 be /秒以上的数据。200MB/秒将导致跨节点的性能负向扩展(大量扩展)。目前的瓶颈仅仅是同一台机器上GPU之间的p2p速度(在V100s的情况下，他们使用的NVSwitch设置类似于带有SXM2的dgx-2，所以它非常快)。节点之间的任何网络都需要与该速度竞争。我认为GCP没有为HPC类型的工作负载提供更快的网络连接？

google-cloud-platform

distributed-computing

hpc

回答 2

Stack Overflow用户

发布于 2019-07-09 04:00:30

如果您看到的不是超快网络，我会确保两台机器在相同地域和区域的相同VPC中。确保机器之间的防火墙规则允许流量流动。

票数 0

Stack Overflow用户

发布于 2019-07-10 22:17:11

当您使用Premium Tier网络时，您的流量将使用谷歌高性能网络。在这种情况下，您只需要确保您的机器位于相同的区域，这将满足您以上的速度要求。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56941172

复制

相似问题

问GCP实例间高速通信
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问GCP实例间高速通信EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问GCP实例间高速通信
EN