在HPC集群上运行scoop程序时,是否有一种方法可以指定跨节点的工作人员分布?
我最近才看到一个独家新闻,到目前为止,它似乎是一个很好的工具,可以快速地将设计用于在单个计算节点上使用多个处理的代码转换为同时使用多个节点的代码。
但是,是否有一种方法可以使用scoop在集群中每个计算节点只运行一个工作人员,以便允许代码中更深层次的多线程在每个多核节点中运行?
我知道可以指定使用-n标志初始化的工作人员的数量,或者指定使用主机文件或--主机标志(http://scoop.readthedocs.io/en/latest/usage.html#how-to-launch-scoop-programs)连接到的特定主机,有办法使用主机文件吗?如果是这样的话,如何在一个具有调度系统(例如,扭矩)的集群上完成这一任务,该系统通常会将节点分配给程序?
如果这不能用scoop完成,那么是否可以用其他包(MPI、并行Python、pathos等)来完成呢?
发布于 2018-09-17 03:50:49
从我自己的独家新闻开始。
似乎您可以通过主机文件指定每个主机的工作人员数量来做到这一点。
具有语法的主机文件:
hostname_or_ip 4
other_hostname
third_hostname 2其中,名称是系统主机名或IP地址,数字代表要启动的工作人员数。
请参阅:https://scoop.readthedocs.io/en/0.7/usage.html#hostfile-format
https://stackoverflow.com/questions/39089993
复制相似问题