我正在尝试获得一个GKE集群(),它由Terraform提供,运行在一个GPU节点池中。如果有人能指出我错过了什么,让GPU节点池工作,那将是最棒的。
我能够在CPU节点池上运行工作,但还无法为GPU节点池安装驱动程序。关于如何设置它,有一个很好的文档,但是当我尝试遵循它时,我在GPU节点上得到一个错误,上面写着Can't access efivars filesystem at /sys/firmware/efi/efivars, aborting,因为运行雏形 文档指向了我。
我正在用Ubuntu GPU在n1-standard-16实例上使用T4映像,并且可以确认节点是使用kubernetes版本的1.11.10-gke.5运行的。
我认为一个有趣的提示可能是,在节点详细信息页中,您可以通过导航到集群中的节点,然后导航到集群中的节点,然后到GPU节点的一个详细信息中,将GPU的计数列为0,尽管它显示每个节点的GPU accelerators值为1,节点池详细信息页。我完全是在猜测,但我认为这可能是因为我没有为这个节点池正确地请求GPU资源,但我似乎不知道如何适合Terraform google_container_node_pool资源。不过,我在GPU节点池的google_container_node_pool中确实有这样的内容:
resource "google_container_node_pool" "gpu_training_nodes" {
...
node_config {
...
guest_accelerator {
type = "nvidia-tesla-t4"
count = 1
}
}
}发布于 2019-10-04 18:16:31
通过将集群中的所有节点提升到相同的kubernetes版本,我能够让GPU显示并可用。以前,主节点和CPU节点都在1.11.6-gke.11上。我不知道这有什么帮助,但这是我唯一的改变。有可能是做了更新,然后重新分配了某些资源,但它不需要把节点或任何如此戏剧性的事情,所以我不知道它是如何产生不同的.
我仍然得到efivars错误,但这似乎并不重要(目前)。
https://serverfault.com/questions/986674
复制相似问题