我的园区中的集群使用PBS TORQUE进行作业管理。
在软件中有几个节点是过时的。如果我的作业被发送到其中一个节点,它将失败。有没有办法排除作业请求中的特定节点(或节点列表)?
发布于 2015-04-03 00:33:41
我不确定您是否可以指定您的作业可以从中选择的集合。您可以指定节点列表,但您必须等待所有节点都变为空闲状态,然后才能运行作业。根据需要排除的节点数量,您可以执行以下操作。
cat $PBS_NODEFILE | grep -v badnode1 |grep -v badnode2 > goodnodes NP=wc -l goodnodes #need back ticks around "wc -l goodnodes" mpirun -np $NP -machinefile goodnodes ./a.out
如果您以任何方式收取资源费用,这并不是理想的做法,但它应该可以帮助您运行作业。
https://stackoverflow.com/questions/26127973
复制相似问题