文章/答案/技术大牛

发布

社区首页 >问答首页 >Slurm Workload Manager的作业提交问题

问Slurm Workload Manager的作业提交问题
EN

Stack Overflow用户

提问于 2021-03-11 06:50:20

回答 1查看 35关注 0票数 0

我使用的计算机集群有20个节点，每个节点有16个CPU。我尝试使用"sbatch XX.sbatch“命令向所有节点提交1,000个作业。我想要的是320个作业同时运行，即每个节点16个作业，或每个CPU 1个作业。

当我使用。带有XX sbatch文件中的参数的sbatch文件是

#!/bin/bash
# Interpreter declaration
#SBATCH -N 1
#SBATCH -n 1
#SBATCH -c 1
#SBATCH -J job_XX

./example.sh

我注意到每个节点上只有一个作业在运行。

然后我试着

#!/bin/bash
# Interpreter declaration
#SBATCH -N 20
#SBATCH -n 1
#SBATCH -c 1
#SBATCH -J job_XX

./example.sh

我注意到在20个节点中只有1个作业在运行，即每20个节点1个作业。

然后我试着

#!/bin/bash
# Interpreter declaration
#SBATCH -N 20
#SBATCH -n 320
#SBATCH -c 1
#SBATCH --ntasks-per-node=16
#SBATCH -J job_XX

./example.sh

尽管如此，1个作业正在使用所有20个节点。

有人知道怎么修吗？谢谢。

slurm

sbatch

回答 1

Stack Overflow用户

发布于 2021-03-12 15:04:28

嗯，如果你想要多个工作，你需要提交多个工作。如果您只调用sbatch XX.sbatch一次，则只会创建一个作业(不完全正确，见下文)。

如果你想创建1000个作业，你可以简单地创建一个for循环来提交1000个作业：

for i in {1..1000}
    do sbatch XX.sbatch
done

这将创建1000个作业，每个作业有一个核心(如果我们以您的第一个作业脚本为例)，它们将填满所有可用的320个作业。但是：在这样的for循环中调用sbatch对于调度器来说不是很好。有一种更好的方法可以提交许多类似的作业：作业阵列。

它们一次提交单个作业脚本的次数不限。在作业脚本中，您可以使用$SLURM_ARRAY_TASK_ID等环境变量来控制您的脚本，使它们执行完全相同的操作。

以你的第一个jobscript为例：

#!/bin/bash
# Interpreter declaration
#SBATCH -N 1
#SBATCH -n 1
#SBATCH -c 1
#SBATCH -J job_XX
#SBATCH --array=0-1000

#Do something with the env vars e.g. use them as parameters for your script
./example.sh $SLURM_ARRAY_TASK_ID

当使用sbatch XX.sbatch提交时，这会一次创建1000个作业，每个作业都使用一个内核，因此会填满所有320个可用内核。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66574034

复制

相似问题

问Slurm Workload Manager的作业提交问题
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Slurm Workload Manager的作业提交问题EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Slurm Workload Manager的作业提交问题
EN