首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >适合于近实时ETL体系结构的工具

适合于近实时ETL体系结构的工具
EN

Stack Overflow用户
提问于 2016-10-13 18:11:08
回答 2查看 1.4K关注 0票数 3

我们有一个系统,其中我们的主要数据存储(和“普遍的真理来源”)是Postgres,但我们复制的数据在实时和夜间的总和。我们目前复制到Elasticsearch、Redis、Redshift (仅每晚),并添加Neo4j。

我们的ETL管道已经变得足够广泛,我们开始研究像气流,气流罗吉这样的工具,但是从我最初的研究中可以看出,这些工具几乎完全是用于批量装载的。

是否有任何工具可以处理一个ETL进程,既可以处理大批ETL进程,也可以处理实时、大容量、单独记录复制?气流或路易吉能处理好这件事而我只是错过了吗?

谢谢!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-10-17 12:54:20

就Luigi而言,您可能会以一种微批处理方式结束,在短时间内运行这些作业。例如,您可以每分钟触发一个cron作业,以检查Postgres表中的新记录并处理该批处理。您可以为每个项创建一个任务,以便您的处理流程本身围绕单个项。在高容量,比如说每秒几百次更新的情况下,这是一个真正的挑战。

Apache有可扩展的批处理模式和微批处理模式,以及一些可以适应ETL的基本流水线操作。然而,解决方案在支持基础设施方面的复杂性水平有了很大的提高。

票数 1
EN

Stack Overflow用户

发布于 2016-10-13 19:36:21

我不是不同的ETL引擎的疯狂专家,但我做了很多五旬节凯特尔,并对它的性能非常满意。特别是如果您调整您的转换以利用并行处理。

我主要使用它来处理集成(实时)和执行ETL的夜间作业,以驱动我们的reporting,但我确信您可以设置它来执行许多实时任务。

我确实建立了网络服务,在我们的后端实时调用各种东西,但是它并没有受到任何形式的负载,听起来你在做一些比我们更重要的事情。此外,它还有一些功能,可以对ETL服务器进行集群,并扩展我从未真正玩过的东西。

我觉得如果你花时间准备好的话,水壶可以做这些事。总的来说,我喜欢这个工具。它是joy在GUI中工作的TBH。如果您不熟悉或怀疑从GUI执行ETL的能力,则应该检查它。你可能会大吃一惊。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40028094

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档