文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用Airflow重新启动失败的结构化流spark作业？

问如何使用Airflow重新启动失败的结构化流spark作业？
EN

Stack Overflow用户

提问于 2020-07-13 13:50:30

回答 1查看 305关注 0票数 1

我需要在AWS EMR中运行结构化流spark作业。作为弹性需求，如果spark作业由于某些原因而失败，我们希望spark作业可以在EMR中重新创建。类似于ECS中的任务编排，如果健康检查失败，可以重启任务。然而，EMR更多是一个计算引擎，而不是编排系统。

我正在寻找一些大数据工作流程编排工具，例如Airflow。但是，它不能支持DAG中的循环。如何实现如下所示的一些功能？

step_adder (EmrAddStepsOperator) >> step_checker (EmrStepSensor) >> step_adder (EmrAddStepsOperator)。

建议的方法是什么来提高这种工作水平的弹性？欢迎提出任何意见！

airflow

amazon-ecs

amazon-emr

apache-spark

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-07-13 14:44:08

Apache Spark已经涵盖了一些弹性(使用Spark-submit提交的作业)，但是，当您想要与不同的进程交互时，不使用Spark，那么Airflow可能是一个解决方案。在您的示例中，Sensor可以帮助检测是否发生了特定条件。基于此，您可以在DAG中做出决定。下面是一个简单的HttpSensor，它等待一个批处理作业，看看它是否成功完成

wait_batch_to_finish = HttpSensor(
    http_conn_id='spark_web',
    task_id="wait_batch_to_finish",
    method="GET",
    headers={"Content-Type": "application/json"},
    endpoint="/json",
    response_check=lambda response: check_spark_status(response, "{{ ti.xcom_pull('batch_intel_task')}}"),
    poke_interval=60,
    dag=dag
)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62869910

复制

相似问题

问如何使用Airflow重新启动失败的结构化流spark作业？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Airflow重新启动失败的结构化流spark作业？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Airflow重新启动失败的结构化流spark作业？
EN