问题
我有一个托管云编写器环境,在1.9.7-gke.6 Kubernetes集群主版下。我尝试将它(以及默认的池节点)升级到1.10.7-gke.1,因为升级是可用的。
从那时起,气流一直在随机作用。工作正常的任务在没有给定原因的情况下失败。这使得气流无法使用,因为调度变得不可靠。下面是一个每15分钟运行一次并在升级后非常明显的行为的任务的示例:视图
在失败任务上悬停时,它只显示一个Operator: null消息(运算符)。此外,该任务根本没有日志。
我已经能够重现与另一个作曲家环境的情况,以确保升级是造成功能障碍的原因。
我到目前为止尝试过的:
我以为升级可能会把调度程序或芹菜搞砸了( composer默认为CeleryExecutor)。
我尝试使用以下命令重新启动调度程序:
kubectl get deployment airflow-scheduler -o yaml | kubectl replace --force -f -我还试图从工人内部重新启动芹菜。
kubectl exec -it airflow-worker-799dc94759-7vck4 -- sudo celery multi restart 1芹菜重新开始,但不能解决问题。所以我尝试重新启动气流,就像我对气流调度器所做的那样。
所有这些都没有解决这个问题。
附带注意,我不能访问花卉监测芹菜时,遵循本教程(谷歌云-连接到花)。连接本地主机:5555永远处于“等待”状态。我不知道这是否相关。
如果我漏掉了什么就告诉我!
发布于 2018-10-01 23:09:37
1.10.7-gke.2现在可用了。您能否进一步升级到1.10.7-gke.2,看看问题是否仍然存在?
https://stackoverflow.com/questions/52361030
复制相似问题