我最近刚开始学习slurm,heat,我有一些问题。
我有一个使用ansible和heat创建的现有slurm集群。Heat创建集群,ansible只是在所有节点上安装/配置所有必要的软件。
现在,我想向现有集群添加新的计算节点。我已经尝试过'openstack update‘命令,但它将重新构建所有现有节点。有没有合适的方法来添加新的计算节点而不重建现有的计算节点?
我还使用ceilometer查看了基于cpu使用率的自动缩放。这看起来很有效,但是在不重启slurm的情况下,如何让slurm集群中的现有节点知道添加了新的计算节点?是否可以在不重新启动的情况下修改slurm.conf、slurmdbd.conf、/ etc /hosts、knownhosts等?
目标是当cpu使用率达到一定水平时,以静默方式添加新的计算节点,并将其配置为现有集群的一部分。
谢谢,
发布于 2018-07-11 14:37:45
这是slurm的一个限制,修改配置文件或添加新节点肯定需要slurm守护进程的其余部分或重新加载slurmctld守护进程才能读取您所做的新配置更改。
以防slurm.conf集中存储在NFS上,重新加载控制器守护进程是很好的,但您可能会看到来自其他节点的一些警告
https://stackoverflow.com/questions/42334530
复制相似问题