我们有一个部署在k8s上的flask应用程序。应用程序的基础图像是这样的:https://hub.docker.com/r/tiangolo/uwsgi-nginx-flask/,我们在此基础上构建我们的应用程序。我们将docker镜像发送到ECR,然后在k8s上部署pod。
我们希望在k8s节点中开始运行ML模型。底层节点有GPU (我们使用的是g4dn实例),它们使用的是GPU。
在运行我们的应用程序时,我看到以下错误:
/usr/local/lib/python3.8/site-packages/torch/cuda/__init__.py:52: UserWarning: CUDA initialization: Found no NVIDIA driver on your system. Please check that you have an NVIDIA GPU and installed a driver from http://www.nvidia.com/Download/index.aspx (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:100.)
return torch._C._cuda_getDeviceCount() > 0在我们的节点上安装CUDA的正确方法是什么?我本以为它会内置于gpu实例附带的AMI中,但事实似乎并非如此。
发布于 2021-11-17 07:44:16
有几个选项:
tensorflow:latest-gpu作为基础镜像,并在您的Docker镜像中自行为您的Docker设置其他配置。https://stackoverflow.com/questions/69999176
复制相似问题