问在运行许多作业时，Flink的主要瓶颈是什么？
EN

Stack Overflow用户

提问于 2018-10-25 18:43:42

回答 1查看 342关注 0票数 1

我的团队正在评估Flink的一些用例，在这些用例中，我们希望保持资源隔离的处理组数量非常多。是否知道在一个集群中运行数万个乔布斯时人们可能会遇到的主要陷阱/瓶颈？

到目前为止，我们已经注意到，在几百个作业之后，JobManager似乎慢了很多，建议here将单个大集群分成多个较小的集群。这是最好的推荐方法，还是有一种方法可以让Flink在非常大规模的乔布斯中可靠地运行？

发布于 2018-10-28 02:11:57

每个集群中的一个作业可能是一种很有吸引力的方法，但是当然，如果这些任务是短暂的，那么为每个作业启动一个集群的开销可能是很不幸的。这种方法的一个优点是安全性，因为作业可以适当地彼此隔离。

另一方面，在单个集群中运行大量作业，随着任务管理器和作业数量的增加，协调集群中的所有检查点活动可能成为瓶颈(假设启用了检查点)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52996108

复制

相似问题

问在运行许多作业时，Flink的主要瓶颈是什么？EN