首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Python作为ETL工具

使用Python作为ETL工具
EN

Stack Overflow用户
提问于 2020-01-07 09:28:04
回答 1查看 239关注 0票数 0

我们计划使用Python作为我们的一个项目的ETL。我们的要求如下。

columns

  • insert文件(文件大小可以从几个KBs到6GB文件)

  • 在ID列

H 19删除ID列<H 210的数据时将数据加载到csv文件<>H 216向外部系统发送V文件已生成H 218G 219/code>对价格进行计算,将最终输出到csv文件H 216H 117向外部系统发送V文件已生成H 218G 219/code>的通知。

注意:会有许多xml文件需要并发处理。

此外,根据输入文件,上述流程中的步骤5、6和7可能有所不同。因此,对于每种文件类型,我们将有单独的流。

此外,我们还必须设置文件处理的优先级。如果有任何高优先级文件出现,则另一个文件必须等待,并且必须首先处理优先级文件。

我们希望就如何在Python中设计这样的系统提出建议,这个系统可以扩展并具有良好的性能。我们可以使用什么工具?

EN

回答 1

Stack Overflow用户

发布于 2020-01-07 09:57:56

您可以查看由airbnb为Etl任务https://gtoonstra.github.io/etl-with-airflow/开发的开源apache气流。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59625522

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档