首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >优化Linux计算集群

优化Linux计算集群
EN

Server Fault用户
提问于 2011-06-20 18:27:06
回答 1查看 516关注 0票数 1

我正在建立一个超级计算Linux集群。我们使用OpenMPI和GoToBlas2运行了最新的HPCC基准,但结果非常糟糕。当我对集群中的每个核心使用一个进程运行基准时,结果要比在单个进程中运行基准测试差得多(超过100倍)。这显然不是我们所期望的那种表现。我唯一的想法是MPI在进程间传输消息的时间太长了。有没有人知道我如何优化服务器设置,这样性能就不会那么糟糕了?

我们使用的是带有OpenMPI v1.4.3的Rocks集群分布。我们的计算节点是戴尔机架挂载服务器,每个服务器有两个四核英特尔Xeon处理器。它们由千兆位以太网电缆连接。

EN

回答 1

Server Fault用户

发布于 2011-06-20 18:39:35

在查看科学集群和性能时,我看到了一些主要的瓶颈:

  • 你有什么样的关系网。是的,您说您有千兆以太网,但是您是否使用非阻塞交换机,以便交换机上的每个节点都能获得全线速率?
  • 您使用的是分布式文件系统还是优化的NAS?
  • 您的所有链接是否都以全线速率运行?同样,这可以追溯到第一点,但是您会惊讶于您会发现在节点上偶尔运行iperf
  • 你的潜伏期是多少。如果你有网络问题的话,这有时会成为千兆网络的一个问题,并且确实会给那些需要使用MPI的应用程序设置一个障碍。
  • network-scripts中,您的主线设备的设置是什么?您的MTU设置为9000吗?

Iperf通常在RHEL系统上可以在

代码语言:javascript
复制
/apps/rhel5/iperf/bin/iperf

要运行iperf,首先要在节点上安装服务器。

代码语言:javascript
复制
/apps/rhel5/iperf/bin/iperf -s

然后从要测试链接的节点中执行以下操作

代码语言:javascript
复制
/apps/rhel5/iperf/bin/iperf -c <host or IP of server>

如果成功,您将在客户机上看到这样的输出:

代码语言:javascript
复制
------------------------------------------------------------
Client connecting to <host or IP of server>, TCP port 4200
TCP window size:   256 KByte (default)
------------------------------------------------------------
[  3] local 123.11.123.12 port 4400 connected with 123.456.789.12 port 4200
[ ID] Interval       Transfer     Bandwidth
[  3]  0.0-10.0 sec  1.1 GBytes  1.01 Gbits/sec

如果您没有安装它,则可以在许多平台上轻松地从存储库中检索到它,如果没有安装,则可以免费从源代码下载和编译。在每个节点上运行此命令,查看实际以太网线路是否有问题。在此之后,在所有节点上运行它,看看它是否阻塞了开关。

票数 1
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/282306

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档