我正在使用spring batch创建批处理作业的工作流。单个批处理作业需要2小时才能完成(要处理的数据约为100万),因此决定以分布式方式运行,其中一个任务将分布在多个工作节点上,这样它就可以在较短的时间内执行。工作流中的其他作业(都是分布式的)需要一个接一个地按顺序运行。作业是多节点分布式作业(主/从架构),需要一个接一个地运行。
现在,我正在考虑在airflow上部署工作流。因此,在探索时,我找不到任何方法来运行分布在多台机器上的单个任务。这在气流中是可能的吗?
发布于 2021-11-23 16:03:44
可以,您可以使用Spark框架创建任务。Spark允许您以分布式方式处理多个节点上的数据。
然后,您可以使用SparkSubmitOperator在DAG中对齐任务。
https://stackoverflow.com/questions/70080791
复制相似问题