我们有一个运行在ubuntu 18.04上的kubernetes集群(1.18.x版),我们主要使用这个集群来运行AI作业。
我们希望集群根据装箱策略(nvidia gpu资源具有最高权重)来调度作业,我已经按照this article所说的做了这件事。但是在我做完所有的工作之后,pod就不能再被调度了,它总是挂起!!
我们运行调度程序的命令如下所示:
/opt/kube/bin/kube-scheduler --address=127.0.0.1 --kubeconfig=/etc/kubernetes/kube-scheduler.kubeconfig --leader-elect=true --tls-cipher-suites=TLS_ECDHE_RSA_WITH_AES_128_GCM_SHA256 --tls-min-version=VersionTLS12 --v=2 --config=/path/to/my_policy_file.yaml 用于重新启动kube-scheduler的命令:
systemctl daemon-reload
systemctl stop kube-scheduler
systemctl start kube-scheduler我的策略文件:
apiVersion: kubescheduler.config.k8s.io/v1beta1
kind: KubeSchedulerConfiguration
leaderElection:
leaderElect: true
clientConnection:
kubeconfig: /etc/kubernetes/kube-scheduler.kubeconfig
profiles:
- schedulerName: kube-scheduler
plugins:
score:
enabled:
- name: RequestedToCapacityRatio
weight: 100
pluginConfig:
- name: RequestedToCapacityRatio
args:
shape:
- utilization: 0
score: 0
- utilization: 100
score: 10
resources:
- name: cpu
weight: 1
- name: nvidia.com/gpu
weight: 100但是在我将这个文件应用到默认调度程序之后,它不能再调度pod了。Pod总是挂起。下面是我用来测试的yaml文件:
apiVersion: v1
kind: Pod
metadata:
name: test
spec:
containers:
- command: ["/bin/bash", "-c", "sleep", "3600"]
image: ubuntu:18.04
name: test那么,如何正确启用binpack功能呢?为什么无法安排作业?
发布于 2021-10-10 05:30:26
我解决了这个问题。我键入了错误的计划程序名称。kubernetes的默认调度器名称为default- scheduler,而不是kube-scheduler。
https://stackoverflow.com/questions/69510497
复制相似问题