首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用SLURM在集群中运行COMSOL时出现的问题

使用SLURM在集群中运行COMSOL时出现的问题
EN

Stack Overflow用户
提问于 2021-09-15 02:16:42
回答 1查看 379关注 0票数 1

我正试图使用COMSOL软件通过.sh脚本将这项工作上传到SLURM集群:

代码语言:javascript
复制
#!/bin/bash  
#SBATCH --job-name=my_work
#SBATCH --nodes=1 
#SBATCH --ntasks-per-node=20   
#SBATCH --mem=20G
#SBATCH --partition=my_partition
#SBATCH --time=4-0 
#SBATCH --no-requeue  
#SBATCH --exclusive       
#SBATCH -D $HOME 
#SBATCH --output=Lecho1_%j.out
#SBATCH --error=Lecho1_%j.err

cd /home/myuser/myfile/
module load intel/2019b
module load OpenMPI/4.1.1
module load COMSOL/5.5.0

comsol batch -mpibootstrap slurm -nn 20 -nnhost 20 -inputfile myfile.mph -outputfile 
myfile.outout.mph -study std1 -batchlog myfile.mph.log

在这样做时,我会得到以下错误消息:

代码语言:javascript
复制
Fatal error in PMPI_Init_thread: Other MPI error, error stack:
MPIR_Init_thread(805): fail failed
MPID_Init(1743)......: channel initialization failed
MPID_Init(2137)......: PMI_Init returned -1

有人能告诉我这意味着什么以及如何彻底解决吗?

EN

回答 1

Stack Overflow用户

发布于 2022-04-27 15:38:13

调用COMSOL的方式是不正确的。提交脚本应该包含以下行,以便在带有SLURM的集群中运行COMSOL:

代码语言:javascript
复制
#!/bin/bash
#SBATCH --partition=regular
#SBATCH --job-name=COMSOL_JOB
#SBATCH --mem=200gb
#SBATCH --cpus-per-task=1
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=48
#SBATCH --output=%x-%j.out
#SBATCH --error=%x-%j.err

module load COMSOL/5.5

comsol batch -mpirmk pbs -job b1 -alivetime 15 -recover \
-inputfile "mymodel.mph" -outputfile "mymodel.mph.out" \
-batchlog  "mymodel.mph.log"
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69186365

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档