发布于 2016-10-17 12:54:20
就Luigi而言,您可能会以一种微批处理方式结束,在短时间内运行这些作业。例如,您可以每分钟触发一个cron作业,以检查Postgres表中的新记录并处理该批处理。您可以为每个项创建一个任务,以便您的处理流程本身围绕单个项。在高容量,比如说每秒几百次更新的情况下,这是一个真正的挑战。
Apache有可扩展的批处理模式和微批处理模式,以及一些可以适应ETL的基本流水线操作。然而,解决方案在支持基础设施方面的复杂性水平有了很大的提高。
发布于 2016-10-13 19:36:21
我不是不同的ETL引擎的疯狂专家,但我做了很多五旬节凯特尔,并对它的性能非常满意。特别是如果您调整您的转换以利用并行处理。
我主要使用它来处理集成(实时)和执行ETL的夜间作业,以驱动我们的reporting,但我确信您可以设置它来执行许多实时任务。
我确实建立了网络服务,在我们的后端实时调用各种东西,但是它并没有受到任何形式的负载,听起来你在做一些比我们更重要的事情。此外,它还有一些功能,可以对ETL服务器进行集群,并扩展我从未真正玩过的东西。
我觉得如果你花时间准备好的话,水壶可以做这些事。总的来说,我喜欢这个工具。它是joy在GUI中工作的TBH。如果您不熟悉或怀疑从GUI执行ETL的能力,则应该检查它。你可能会大吃一惊。
https://stackoverflow.com/questions/40028094
复制相似问题