我被要求升级我们的安装。我在Debian7.0喘息集群(1个主节点+8个节点)上有一个Slurm2.3.4。我没有安装它,所以我对如何做到这一点以及如何在不破坏任何东西的情况下进行操作感到有点困惑。(我无法真正备份数据,因为有太多的to数据无法复制到其他任何地方。)
我想至少升级到Jessie (Debian 8),但是Slurm呢?我仔细阅读了文档的升级部分(https://slurm.schedmd.com/quickstart_admin.html),例如,我看到升级必须以增量方式完成,而不是从2.3.4跳转到17。
我仍然不清楚如何做到这一点。如果你被要求升级一个你根本不知道的集群,你会怎么做?你会查些什么?什么版本的o.s。斯隆你会选吗?你会备份什么?你会怎么做?
任何信息都是金子!谢谢
发布于 2017-10-03 14:43:40
我做了类似的升级与扭矩/Moab,但不是与Slurm,但我可以提供一些建议。如果您能够获得一个测试系统或VM来验证升级后一切都会正常工作,那将是理想的。否则,这就是文档提到的棘手部分:
Slurm允许在两个版本之间进行升级,其主要发布号相差两个或更少(例如,15.08.x或16.05.x到17.02.x),而不会丢失工作或其他状态信息。来自旧版本的状态信息将不被识别,并将被丢弃,从而导致所有正在运行和挂起的作业的丢失。
这意味着,如果在升级后有运行和挂起的作业,它们就不会在那里了。因此,用户需要再次提交作业,这意味着您将松散优先级和其他与作业相关的元数据和状态信息。
使用Torque/Moab,有一个作业文件夹,通常可以复制并迁移到新版本。有类似的吗?
基本上,如果您不能拥有一台测试机器,那么在这种情况下,您将需要安排一个停机时间,并通知用户队列中的所有当前作业都将丢失,这意味着他们必须重新提交所有内容。如果这不是一个选项,那么您需要找到一种将作业迁移到升级系统的方法。
https://serverfault.com/questions/876630
复制相似问题