问在Terraform上的GPU无法访问/sys/固件/efi/ efivars上的efivars文件系统，并中止
EN

Server Fault用户

提问于 2019-10-03 15:43:30

回答 1查看 221关注 0票数 1

我正在尝试获得一个GKE集群()，它由Terraform提供，运行在一个GPU节点池中。如果有人能指出我错过了什么，让GPU节点池工作，那将是最棒的。

我能够在CPU节点池上运行工作，但还无法为GPU节点池安装驱动程序。关于如何设置它，有一个很好的文档，但是当我尝试遵循它时，我在GPU节点上得到一个错误，上面写着Can't access efivars filesystem at /sys/firmware/efi/efivars, aborting，因为运行雏形文档指向了我。

我正在用Ubuntu GPU在n1-standard-16实例上使用T4映像，并且可以确认节点是使用kubernetes版本的1.11.10-gke.5运行的。

我认为一个有趣的提示可能是，在节点详细信息页中，您可以通过导航到集群中的节点，然后导航到集群中的节点，然后到GPU节点的一个详细信息中，将GPU的计数列为0，尽管它显示每个节点的GPU accelerators值为1，节点池详细信息页。我完全是在猜测，但我认为这可能是因为我没有为这个节点池正确地请求GPU资源，但我似乎不知道如何适合Terraform google_container_node_pool资源。不过，我在GPU节点池的google_container_node_pool中确实有这样的内容：

resource "google_container_node_pool" "gpu_training_nodes" {    
  ...
  node_config {
    ...
    guest_accelerator {
      type  = "nvidia-tesla-t4"
      count = 1
    }
  }
}

google-kubernetes-engine

terraform

回答 1

Server Fault用户

发布于 2019-10-04 18:16:31

通过将集群中的所有节点提升到相同的kubernetes版本，我能够让GPU显示并可用。以前，主节点和CPU节点都在1.11.6-gke.11上。我不知道这有什么帮助，但这是我唯一的改变。有可能是做了更新，然后重新分配了某些资源，但它不需要把节点或任何如此戏剧性的事情，所以我不知道它是如何产生不同的.

我仍然得到efivars错误，但这似乎并不重要(目前)。

票数 1

页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://serverfault.com/questions/986674

复制

相似问题

问在Terraform上的GPU无法访问/sys/固件/efi/ efivars上的efivars文件系统，并中止
EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Terraform上的GPU无法访问/sys/固件/efi/ efivars上的efivars文件系统，并中止EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Terraform上的GPU无法访问/sys/固件/efi/ efivars上的efivars文件系统，并中止
EN