我正在建立一个超级计算Linux集群。我们使用OpenMPI和GoToBlas2运行了最新的HPCC基准,但结果非常糟糕。当我对集群中的每个核心使用一个进程运行基准时,结果要比在单个进程中运行基准测试差得多(超过100倍)。这显然不是我们所期望的那种表现。我唯一的想法是MPI在进程间传输消息的时间太长了。有没有人知道我如何优化服务器设置,这样性能就不会那么糟糕了?
我们使用的是带有OpenMPI v1.4.3的Rocks集群分布。我们的计算节点是戴尔机架挂载服务器,每个服务器有两个四核英特尔Xeon处理器。它们由千兆位以太网电缆连接。
发布于 2011-06-20 18:39:35
在查看科学集群和性能时,我看到了一些主要的瓶颈:
network-scripts中,您的主线设备的设置是什么?您的MTU设置为9000吗?Iperf通常在RHEL系统上可以在
/apps/rhel5/iperf/bin/iperf要运行iperf,首先要在节点上安装服务器。
/apps/rhel5/iperf/bin/iperf -s然后从要测试链接的节点中执行以下操作
/apps/rhel5/iperf/bin/iperf -c <host or IP of server>如果成功,您将在客户机上看到这样的输出:
------------------------------------------------------------
Client connecting to <host or IP of server>, TCP port 4200
TCP window size: 256 KByte (default)
------------------------------------------------------------
[ 3] local 123.11.123.12 port 4400 connected with 123.456.789.12 port 4200
[ ID] Interval Transfer Bandwidth
[ 3] 0.0-10.0 sec 1.1 GBytes 1.01 Gbits/sec如果您没有安装它,则可以在许多平台上轻松地从存储库中检索到它,如果没有安装,则可以免费从源代码下载和编译。在每个节点上运行此命令,查看实际以太网线路是否有问题。在此之后,在所有节点上运行它,看看它是否阻塞了开关。
https://serverfault.com/questions/282306
复制相似问题