我在一台本地机器上运行Kubeflow,这台机器是我使用these steps部署的multipass,但当我尝试运行我的管道时,它被消息ContainerCreating卡住了。当我运行kubectl describe pod train-pipeline-msmwc-1648946763 -n kubeflow时,我在describe的Events部分找到了这个:
Events:
Type Reason Age From Message
---- ------ ---- ---- -------
Warning FailedMount 7m12s (x51 over 120m) kubelet, kubeflow-vm Unable to mount volumes for pod "train-pipeline-msmwc-1648946763_kubeflow(45889c06-87cf-4467-8cfa-3673c7633518)": timeout expired waiting for volumes to attach or mount for pod "kubeflow"/"train-pipeline-msmwc-1648946763". list of unmounted volumes=[docker-sock]. list of unattached volumes=[podmetadata docker-sock mlpipeline-minio-artifact pipeline-runner-token-dkvps]
Warning FailedMount 2m22s (x67 over 122m) kubelet, kubeflow-vm MountVolume.SetUp failed for volume "docker-sock" : hostPath type check failed: /var/run/docker.sock is not a socket file在我看来,我的部署出现了问题,但我是Kubernetes的新手,不知道我现在应该做什么。有没有办法解决这个问题?我不知道这是否有帮助,但我正在从一个私有的docker注册表中提取容器,并根据this.设置了秘密
发布于 2021-04-08 00:20:59
有一个步骤在教程中没有提到,那就是我必须安装docker。我已经安装了docker,重启了机器,现在一切正常。
发布于 2021-05-11 03:39:20
你不需要使用docker。事实上,问题出在kubeflow名称空间中的workflow-controller-configmap。您可以使用以下命令进行编辑
kubectl edit configmap workflow-controller-configmap -n kubeflow并将containerRuntimeExecutor: docker更改为containerRuntimeExecutor: pns。此外,您还可以更改一些步骤,将kubeflow 1.3安装在mutlitpass 1.21而不是1.15中。不要使用kubelfow附加组件(至少对我不起作用)。正如它们在https://github.com/kubeflow/manifests#installation中提到的那样,您需要kustomize 3.2来创建清单。
https://stackoverflow.com/questions/66989018
复制相似问题