我的源代码的Q大小是10 MB,但它取决于1GB文件。我只是想知道Slurm作业的源代码和它的相关文件应该存储在哪里?如果它掌握在管理员的手中,建议采用哪种方法?有这方面的文件吗?
例如,我有一个控制器,后面有10个计算节点。
(case-1)如果作业的源代码存储在控制器的存储上,那么当我们通过sbatch提交作业时,源代码是否被转移到计算节点,以及作业更新任何写入控制器本地存储的文件?因此,控制器和计算节点之间应该存在文件传输,这可能具有很高的I/O使用率。
(case-2)如果有多个计算节点,因为当我提交他们动态选择的作业时,我应该将源代码写入它们的所有本地存储中吗?
(case-3),所有计算节点是否都能快速访问共享内存?
发布于 2018-06-01 08:32:49
一个计算集群通常有几个文件系统(用来存储文件的存储位置)供用户访问,具有不同的作用域和用途。例如:
对于一个10节点的集群和一个控制器,您应该将存储空间从控制器导出到具有NFS的计算节点。你可以把所有的文件都存储在里面。如果作业在开始时只按顺序读取数据,那么这应该是可以的。
如果作业在整个作业中随机读取数据,则可以将数据复制到计算节点的本地磁盘上。或者,您可以在计算节点上安装一个BeeGFS文件系统,将所有磁盘收集到一个系统中,这样所有节点都可以访问这些文件,并为每个节点配置重复文件。
如果作业在其生存期内随机写入大量数据,则应写入本地节点存储,然后在作业结束时将其复制回主文件系统。
https://stackoverflow.com/questions/50410607
复制相似问题