文章/答案/技术大牛

发布

问优化Linux计算集群
EN

Server Fault用户

提问于 2011-06-20 18:27:06

回答 1查看 516关注 0票数 1

我正在建立一个超级计算Linux集群。我们使用OpenMPI和GoToBlas2运行了最新的HPCC基准，但结果非常糟糕。当我对集群中的每个核心使用一个进程运行基准时，结果要比在单个进程中运行基准测试差得多(超过100倍)。这显然不是我们所期望的那种表现。我唯一的想法是MPI在进程间传输消息的时间太长了。有没有人知道我如何优化服务器设置，这样性能就不会那么糟糕了？

我们使用的是带有OpenMPI v1.4.3的Rocks集群分布。我们的计算节点是戴尔机架挂载服务器，每个服务器有两个四核英特尔Xeon处理器。它们由千兆位以太网电缆连接。

cluster

hpc

linux

回答 1

Server Fault用户

发布于 2011-06-20 18:39:35

在查看科学集群和性能时，我看到了一些主要的瓶颈：

你有什么样的关系网。是的，您说您有千兆以太网，但是您是否使用非阻塞交换机，以便交换机上的每个节点都能获得全线速率？
您使用的是分布式文件系统还是优化的NAS？
您的所有链接是否都以全线速率运行？同样，这可以追溯到第一点，但是您会惊讶于您会发现在节点上偶尔运行iperf
你的潜伏期是多少。如果你有网络问题的话，这有时会成为千兆网络的一个问题，并且确实会给那些需要使用MPI的应用程序设置一个障碍。
在network-scripts中，您的主线设备的设置是什么？您的MTU设置为9000吗？

Iperf通常在RHEL系统上可以在

/apps/rhel5/iperf/bin/iperf

要运行iperf，首先要在节点上安装服务器。

/apps/rhel5/iperf/bin/iperf -s

然后从要测试链接的节点中执行以下操作

/apps/rhel5/iperf/bin/iperf -c <host or IP of server>

如果成功，您将在客户机上看到这样的输出：

------------------------------------------------------------
Client connecting to <host or IP of server>, TCP port 4200
TCP window size:   256 KByte (default)
------------------------------------------------------------
[  3] local 123.11.123.12 port 4400 connected with 123.456.789.12 port 4200
[ ID] Interval       Transfer     Bandwidth
[  3]  0.0-10.0 sec  1.1 GBytes  1.01 Gbits/sec

如果您没有安装它，则可以在许多平台上轻松地从存储库中检索到它，如果没有安装，则可以免费从源代码下载和编译。在每个节点上运行此命令，查看实际以太网线路是否有问题。在此之后，在所有节点上运行它，看看它是否阻塞了开关。

票数 1

页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://serverfault.com/questions/282306

复制

相似问题

问优化Linux计算集群
EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问优化Linux计算集群EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问优化Linux计算集群
EN