我们有一个系统,其中我们的主要数据存储(和“普遍的真理来源”)是Postgres,但我们复制的数据在实时和夜间的总和。我们目前复制到Elasticsearch、Redis、Redshift (仅每晚),并添加Neo4j。
我们的ETL管道已经变得足够广泛,我们开始研究像气流,气流和罗吉这样的工具,但是从我最初的研究中可以看出,这些工具几乎完全是用于批量装载的。
是否有任何工具可以处理一个ETL进程,既可以处理大批ETL进程,也可以处理实时、大容量、单独记录复制?气流或路易吉能处理好这件事而我只是错过了吗?
谢谢!
发布于 2016-10-17 12:54:20
就Luigi而言,您可能会以一种微批处理方式结束,在短时间内运行这些作业。例如,您可以每分钟触发一个cron作业,以检查Postgres表中的新记录并处理该批处理。您可以为每个项创建一个任务,以便您的处理流程本身围绕单个项。在高容量,比如说每秒几百次更新的情况下,这是一个真正的挑战。
Apache有可扩展的批处理模式和微批处理模式,以及一些可以适应ETL的基本流水线操作。然而,解决方案在支持基础设施方面的复杂性水平有了很大的提高。
发布于 2016-10-13 19:36:21
我不是不同的ETL引擎的疯狂专家,但我做了很多五旬节凯特尔,并对它的性能非常满意。特别是如果您调整您的转换以利用并行处理。
我主要使用它来处理集成(实时)和执行ETL的夜间作业,以驱动我们的reporting,但我确信您可以设置它来执行许多实时任务。
我确实建立了网络服务,在我们的后端实时调用各种东西,但是它并没有受到任何形式的负载,听起来你在做一些比我们更重要的事情。此外,它还有一些功能,可以对ETL服务器进行集群,并扩展我从未真正玩过的东西。
我觉得如果你花时间准备好的话,水壶可以做这些事。总的来说,我喜欢这个工具。它是joy在GUI中工作的TBH。如果您不熟悉或怀疑从GUI执行ETL的能力,则应该检查它。你可能会大吃一惊。
https://stackoverflow.com/questions/40028094
复制相似问题