首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >无法在Slurm中分配GPU

无法在Slurm中分配GPU
EN

Stack Overflow用户
提问于 2021-01-13 19:31:15
回答 1查看 572关注 0票数 1

我在Slurm集群上分配gpu资源时遇到了问题。

指定1个GPU,如下图所示,提示无法分配gres资源。如果有多个,结果是一样的。

代码语言:javascript
复制
$ srun --gres=gpu:1 --pty bash
srun: error: Unable to create step for job 73: Invalid generic resource (gres) specification

计算节点的gres信息似乎正确,如下所示

代码语言:javascript
复制
$ sinfo -o "%20N  %10c  %10m  %25f  %10G "
NODELIST              CPUS        MEMORY      AVAIL_FEATURES             GRES       
gpu_svr[1-4  72          515484      (null)                     gpu:8   

slurm.conf中的节点配置如下

代码语言:javascript
复制
/etc/slurm/slurm.conf

GresTypes=gpu
NodeName=gpu_svr1 NodeAddr=x.x.x.1 CPUs=72 RealMemory=515484 Sockets=2 CoresPerSocket=18 
ThreadsPerCore=2 Gres=gpu:8 State=UNKNOWN
NodeName=gpu_svr2 NodeAddr=x.x.x.2 CPUs=72 RealMemory=515484 Sockets=2 CoresPerSocket=18 
ThreadsPerCore=2 Gres=gpu:8 State=UNKNOWN
NodeName=gpu_svr3 NodeAddr=x.x.x.3 CPUs=72 RealMemory=515484 Sockets=2 CoresPerSocket=18 
ThreadsPerCore=2 Gres=gpu:8 State=UNKNOWN
NodeName=gpu_svr4 NodeAddr=x.x.x.4 CPUs=72 RealMemory=515484 Sockets=2 CoresPerSocket=18 
ThreadsPerCore=2 Gres=gpu:8 State=UNKNOWN
PartitionName=v100 Nodes=ALL Default=YES MaxTime=INFINITE State=UP

以下是计算节点上的gres.conf

代码语言:javascript
复制
gres.conf 

NodeName=gpu_svr[1-4] Name=gpu File=/dev/nvidia[0-7]
EN

回答 1

Stack Overflow用户

发布于 2021-01-14 22:03:18

解决了。

应在slurm.conf中说明以下选项

代码语言:javascript
复制
SelectType=select/cons_tres 
SelectTypeParameters=CR_Core 
JobAcctGatherType=jobacct_gather/cgroup
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65701099

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档