首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >slurm 学习(一)

slurm 学习(一)

原创
作者头像
用户10078835
发布2022-09-29 17:25:24
发布2022-09-29 17:25:24
1.5K0
举报
文章被收录于专栏:学习ing学习ing

1、命令:sinfo 功能:显示系统资源使用情况

sinfo命令显示.png
sinfo命令显示.png

其中:

第一列 PARTITION是队列名,默认能使用的队列名为debug;

第二列 AVAIL是队列可用情况,up是可用状态;down为不可用状态;

第三列 TIMELIMIT是作业运行时间限制,默认infinite没有限制;

第四列 NODES是节点数;

第五列 STATE是节点状态,alloc是已被占用节点,idle是空闲节点,comp是正在释放资源的节点,其他状态的节点都不可用,mix是该节点所有作业在运行或有程序占用cpu导致的;

第六列 NODELIST是节点列表。

sinfo的常用命令选项:

命令示例

功能

sinfo -n gm26

指定节点gm26的使用情况

sinfo -p debug

指定显示队列debug情况

2、squeue 查看作业状态

squeue得到的结果是当前账号正在运行作业的状态,如果squeue没有作业信息,说明作业已退出。

squeue命令显示.png
squeue命令显示.png

其中:

第一列 JOBID是作业号,作业号是唯一的;

第二列 PARTITION是作业运行使用的队列名;

第三列 NAME是作业名;

第四列 USER是超算账号名;

第五列 ST是作业状态,R表示正常运行,PD表示在排队,CG表示正在退出,S是管理员暂时挂起,只有R状态会计费;

第六列 TIME是作业运行时间;

第七列 NODES是作业使用的节点数;

第八列 NODELIST(REASON) 对于运行作业(R状态)显示作业使用的节点列表;对于排队作业(PD状态),显示排队的原因。

squeue的常用命令选项:

命令示例

功能

squeue -j 3454

查看作业号为3454的作业信息

squeue -u test123

查看集群账号为test123的作业信息

squeue -p SZCS*

查看提交到debug队列的作业信息

squeue -w cab03

查看使用到cab03节点的作业信息

其他选项可以通过squeue --help命令查看

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档