我正在做一个项目,从亚马逊网络服务S3获取一组输入数据,对其进行预处理和分配,创建10K批处理容器,在亚马逊网络服务批处理上并行处理分配的数据,对数据进行后期聚合,并将其推送到S3。
我已经有了来自Airflow + Batch的其他项目的软件模式,但还没有处理10k并行任务的缩放因子。Airflow很好,因为我可以查看失败的任务,并在调试后重试任务。但是,在一个Airflow EC2实例上处理如此多的任务似乎是一个障碍。另一种选择是使用一个任务来启动10k容器并从那里监视它。
我没有使用阶跃函数的经验,但我听说这是AWS的气流。对于步骤函数+批处理,在线模式看起来很多。对于我的用例,步骤函数看起来像是一个很好的检验路径吗?对于失败的作业/重试任务的能力,您是否获得了与Airflow相同的洞察?
发布于 2020-10-07 16:11:53
我在Apache Airflow和AWS Step函数上都做过工作,以下是一些见解:
总体而言,我看到了使用AWS步骤函数的更多优势。您必须根据您的用例考虑这两种服务的维护成本和开发成本。
更新(适用于Apache Airflow服务的托管工作流):
https://stackoverflow.com/questions/64016869
复制相似问题