首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >slurm: Slurm作业及其相关文件的源代码应该存储在哪里?

slurm: Slurm作业及其相关文件的源代码应该存储在哪里?
EN

Stack Overflow用户
提问于 2018-05-18 11:44:13
回答 1查看 229关注 0票数 2

我的源代码的Q大小是10 MB,但它取决于1GB文件。我只是想知道Slurm作业的源代码和它的相关文件应该存储在哪里?如果它掌握在管理员的手中,建议采用哪种方法?有这方面的文件吗?

  • Case1:存储在控制器的本地存储器上?(如果是,计算注释是否将源代码捕获到其本地存储中?)
  • Case2:存储在计算节点的本地存储上?
  • Case3:存储在共享内存上,所有计算节点和控制器都可以访问?

例如,我有一个控制器,后面有10个计算节点。

(case-1)如果作业的源代码存储在控制器的存储上,那么当我们通过sbatch提交作业时,源代码是否被转移到计算节点,以及作业更新任何写入控制器本地存储的文件?因此,控制器和计算节点之间应该存在文件传输,这可能具有很高的I/O使用率。

(case-2)如果有多个计算节点,因为当我提交他们动态选择的作业时,我应该将源代码写入它们的所有本地存储中吗?

(case-3),所有计算节点是否都能快速访问共享内存?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-01 08:32:49

一个计算集群通常有几个文件系统(用来存储文件的存储位置)供用户访问,具有不同的作用域和用途。例如:

  • “home”文件系统,由所有计算节点共享,是为稳定(备份、高可用性等)而构建的。用户可以在其中存储他们的代码、配置文件等。
  • 一个“划痕”文件系统,由所有计算节点共享,构建是为了性能而不是稳定性(并行文件系统,没有备份等等)
  • 一个“TMP”文件系统,对于所有节点都是不同的,用于临时文件,并在每个作业之后进行典型的清理。

对于一个10节点的集群和一个控制器,您应该将存储空间从控制器导出到具有NFS的计算节点。你可以把所有的文件都存储在里面。如果作业在开始时只按顺序读取数据,那么这应该是可以的。

如果作业在整个作业中随机读取数据,则可以将数据复制到计算节点的本地磁盘上。或者,您可以在计算节点上安装一个BeeGFS文件系统,将所有磁盘收集到一个系统中,这样所有节点都可以访问这些文件,并为每个节点配置重复文件。

如果作业在其生存期内随机写入大量数据,则应写入本地节点存储,然后在作业结束时将其复制回主文件系统。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50410607

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档