我是第一次安装slurm。我已经安装了19.05.1-2 tarball,并使用配置器创建了一个非常简单的两节点集群。控制节点是sdc,计算节点(运行slurmd)是sdc和sdc1。都是用Ubuntu 18.04重建的
我可以启动控制器和计算节点sdc,还可以使用srun成功提交作业。太好了。但是,当我在第二个节点SDC1上启动slurmd时,我得到:
slurmd: error: Unable to register: Zero Bytes were transmitted or received这很快就把我带到了我的munge配置。控制器(sdc)上的Munge.log每秒显示"Invalid credential“。我三次检查了两台主机上的munge.key是否相同。我验证了ntp也在运行。
所以我手把手地在SDC1上打开了-s foobar | unmunge,当然这在本地也是有效的。然后,我将SDC1中的转换文本保存到SDC上的一个文件中,并尝试取消转换。这又一次给出了错误"Invalid credential“。
因此,我在两个系统上卸载并重新安装了munge,分发了密钥,并重复了测试,结果相同。
我想我错过了一些简单的东西。我不知道还能做些什么来正确安装munge。
发布于 2019-07-19 10:59:33
节点之间的UID/GID不匹配。当然在安装指南中也有提到。
https://stackoverflow.com/questions/57079707
复制相似问题