我们创建了一个Composer v2环境,用于从v1迁移。所有的DAG代码已经调整,我们正在使用到目前为止,最新的可用图像composer-2.0.0-preview.5-airflow-2.1.4。
我们注意到,尽管CPU很轻松,内存也很大,但Web server health却是片状的(在环境监视页面上,每隔几分钟就会出现红色/绿色交替)。
为了进行测试,我删除了K8s在K8s中的webserver上的健康检查(以及启动探针)。然后,我发现有一个来自airflow-monitoring pod (10.63.129.6)的IP的呼叫,此后不久,gunicorn进程接收到一个HUP:
airflow-webserver 10.63.129.6 - - [17/Nov/2021:12:56:03 +0000] "GET /_ah/health HTTP/1.1" 200 187 "-" "python-requests/2.24.0"
airflow-webserver [2021-11-17 12:56:05 +0000] [57] [INFO] Handling signal: hup
airflow-webserver [2021-11-17 12:56:05 +0000] [57] [INFO] Hang up: Master
airflow-webserver [2021-11-17 12:56:05 +0000] [1083] [INFO] Booting worker with pid: 1083
airflow-webserver [2021-11-17 12:56:05 +0000] [1084] [INFO] Booting worker with pid: 1084
airflow-webserver [2021-11-17 12:56:05 +0000] [1051] [INFO] Worker exiting (pid: 1051)
airflow-webserver [2021-11-17 12:56:05 +0000] [1052] [INFO] Worker exiting (pid: 1052)
airflow-webserver [2021-11-17 12:56:05 +0000] [1085] [INFO] Booting worker with pid: 1085
airflow-webserver [2021-11-17 12:56:05 +0000] [1086] [INFO] Booting worker with pid: 1086
airflow-webserver [2021-11-17 12:56:07 +0000] [57] [WARNING] Worker with pid 1052 was terminated due to signal 15
airflow-webserver [2021-11-17 12:56:07 +0000] [57] [WARNING] Worker with pid 1051 was terminated due to signal 15这种情况每分钟都会发生,所以This服务器的响应速度很慢。由于airflow-monitoring pod在GKEAutopilot中的受保护名称空间中运行,我不知道如何进一步调试它。
更新:这里似乎有两件事在玩,一种看起来像是gcs-syncd吊舱和webserver之间的赛跑状态。
Removing file:///home/airflow/gcs/plugins/operators/__pycache__/trigger_emarsys_event_operator.cpython-38.pyc
{webserver_command.py:217} ERROR - [Errno 2] No such file or directory: '/home/airflow/gcs/plugins/operators/__pycache__/trigger_emarsys_event_operator.cpython-38.pyc'
{webserver_command.py:218} ERROR - Shutting down webserver发布于 2021-12-07 11:17:30
当检测到插件更改时,禁用when服务器的重新加载解决了这种情况。每次发生gcs时,这都是触发重启的原因。谢谢@MateuszH的提示!
[webserver]
reload_on_plugin_change=False发布于 2021-11-18 17:42:28
如果您已经配置了core:default_timezone气流配置,那么环境健康状态只是一个度量,它不会对实际的作业/任务执行产生任何影响。
您可以忽略运行状态,也可以删除配置以接受默认UTC时区。
这是因为Composer每5分钟运行一次名为airflow_monitoring的活性DAG,并报告环境健康情况如下:
https://stackoverflow.com/questions/70005576
复制相似问题