我们计划使用Python作为我们的一个项目的ETL。我们的要求如下。
columns
H 19删除ID列<H 210的数据时将数据加载到csv文件<>H 216向外部系统发送V文件已生成H 218G 219/code>对价格进行计算,将最终输出到csv文件H 216H 117向外部系统发送V文件已生成H 218G 219/code>的通知。
注意:会有许多xml文件需要并发处理。
此外,根据输入文件,上述流程中的步骤5、6和7可能有所不同。因此,对于每种文件类型,我们将有单独的流。
此外,我们还必须设置文件处理的优先级。如果有任何高优先级文件出现,则另一个文件必须等待,并且必须首先处理优先级文件。
我们希望就如何在Python中设计这样的系统提出建议,这个系统可以扩展并具有良好的性能。我们可以使用什么工具?
发布于 2020-01-07 09:57:56
您可以查看由airbnb为Etl任务https://gtoonstra.github.io/etl-with-airflow/开发的开源apache气流。
https://stackoverflow.com/questions/59625522
复制相似问题