首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >v2健康检查似乎是假阴性/片状

v2健康检查似乎是假阴性/片状
EN

Stack Overflow用户
提问于 2021-11-17 13:49:06
回答 2查看 582关注 0票数 2

我们创建了一个Composer v2环境,用于从v1迁移。所有的DAG代码已经调整,我们正在使用到目前为止,最新的可用图像composer-2.0.0-preview.5-airflow-2.1.4

我们注意到,尽管CPU很轻松,内存也很大,但Web server health却是片状的(在环境监视页面上,每隔几分钟就会出现红色/绿色交替)。

为了进行测试,我删除了K8s在K8s中的webserver上的健康检查(以及启动探针)。然后,我发现有一个来自airflow-monitoring pod (10.63.129.6)的IP的呼叫,此后不久,gunicorn进程接收到一个HUP:

代码语言:javascript
复制
airflow-webserver 10.63.129.6 - - [17/Nov/2021:12:56:03 +0000] "GET /_ah/health HTTP/1.1" 200 187 "-" "python-requests/2.24.0"
airflow-webserver [2021-11-17 12:56:05 +0000] [57] [INFO] Handling signal: hup
airflow-webserver [2021-11-17 12:56:05 +0000] [57] [INFO] Hang up: Master
airflow-webserver [2021-11-17 12:56:05 +0000] [1083] [INFO] Booting worker with pid: 1083
airflow-webserver [2021-11-17 12:56:05 +0000] [1084] [INFO] Booting worker with pid: 1084
airflow-webserver [2021-11-17 12:56:05 +0000] [1051] [INFO] Worker exiting (pid: 1051)
airflow-webserver [2021-11-17 12:56:05 +0000] [1052] [INFO] Worker exiting (pid: 1052)
airflow-webserver [2021-11-17 12:56:05 +0000] [1085] [INFO] Booting worker with pid: 1085
airflow-webserver [2021-11-17 12:56:05 +0000] [1086] [INFO] Booting worker with pid: 1086
airflow-webserver [2021-11-17 12:56:07 +0000] [57] [WARNING] Worker with pid 1052 was terminated due to signal 15
airflow-webserver [2021-11-17 12:56:07 +0000] [57] [WARNING] Worker with pid 1051 was terminated due to signal 15

这种情况每分钟都会发生,所以This服务器的响应速度很慢。由于airflow-monitoring pod在GKEAutopilot中的受保护名称空间中运行,我不知道如何进一步调试它。

更新:这里似乎有两件事在玩,一种看起来像是gcs-syncd吊舱和webserver之间的赛跑状态。

代码语言:javascript
复制
Removing file:///home/airflow/gcs/plugins/operators/__pycache__/trigger_emarsys_event_operator.cpython-38.pyc
{webserver_command.py:217} ERROR - [Errno 2] No such file or directory: '/home/airflow/gcs/plugins/operators/__pycache__/trigger_emarsys_event_operator.cpython-38.pyc'
{webserver_command.py:218} ERROR - Shutting down webserver
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-12-07 11:17:30

当检测到插件更改时,禁用when服务器的重新加载解决了这种情况。每次发生gcs时,这都是触发重启的原因。谢谢@MateuszH的提示!

代码语言:javascript
复制
[webserver]
reload_on_plugin_change=False

https://airflow.apache.org/docs/apache-airflow/stable/configurations-ref.html#reload-on-plugin-change

票数 2
EN

Stack Overflow用户

发布于 2021-11-18 17:42:28

如果您已经配置了core:default_timezone气流配置,那么环境健康状态只是一个度量,它不会对实际的作业/任务执行产生任何影响。

您可以忽略运行状态,也可以删除配置以接受默认UTC时区。

这是因为Composer每5分钟运行一次名为airflow_monitoring的活性DAG,并报告环境健康情况如下:

  • 当DAG运行成功完成时,运行状态为True.
  • (如果DAG运行失败,则状态为False ).
  • (如果DAG未完成),编写器每5分钟轮询DAG的状态,如果出现一小时超时,则报告为False.
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70005576

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档