我正在尝试建立一个由8台计算机和一个主文件服务器组成的集群。理想情况下,我希望在pxe引导、准磁盘/准无状态环境(即唯一的本地存储空间是/var,类似于扭矩配置的地方)中设置它。8个计算节点中的每个节点都有4个NVIDIA Tesla K40m,但是根文件服务器没有GPU。
理想情况下,我希望能够在文件服务器(在/node)上创建完整的安装,然后将其引导到计算节点,但是,我还没有找到一种方法来安装NVIDIA驱动程序,而没有安装NVIDIA。我找到了NVIDIA论坛的一个问题关于有人是如何失败的.
或者,我可以将NVIDIA驱动程序安装到一个计算节点(其中一个正在其本地磁盘上运行CentOS )到(例如) /usr/local/nvidia,并跟踪它创建了哪些文件,并创建一个tarball来复制到文件服务器安装。
最后,我可以维护八个独立的安装,但是,从长期维护的角度来看,我不喜欢这样(每个计算节点将运行torque作业,所以我希望节点看起来大致相同)。
总之,我想要的是:
作为参考,我们运行的是CentOS 7。
[root@compute-3 /]# uname -a
Linux compute-3 3.10.0-514.2.2.el7.x86_64 #1 SMP Tue Dec 6 23:06:41 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux发布于 2017-01-16 01:28:06
使用RPM包,就像其他东西一样。
目前,最好的NVIDIA驱动程序包是来自Negativo17。
https://serverfault.com/questions/826450
复制相似问题