我希望构建一个自动创建和删除节点的集群环境。作业将使用Slurm分发到各个节点。两个问题:
发布于 2022-03-24 19:38:45
您需要重新启动Slurm守护进程,以使对slurm.conf文件的更改生效,对于正在运行的作业来说,这可能是个问题。如果Slurm控件守护进程发现由于校验和不匹配而导致的slurm.conf不同(请参阅添加节点的官方文档:https://slurm.schedmd.com/faq.html#add_nodes),则可能会出现错误(作业失败或更糟)。
https://stackoverflow.com/questions/71559457
复制相似问题