我的团队正在评估Flink的一些用例,在这些用例中,我们希望保持资源隔离的处理组数量非常多。是否知道在一个集群中运行数万个乔布斯时人们可能会遇到的主要陷阱/瓶颈?
到目前为止,我们已经注意到,在几百个作业之后,JobManager似乎慢了很多,建议here将单个大集群分成多个较小的集群。这是最好的推荐方法,还是有一种方法可以让Flink在非常大规模的乔布斯中可靠地运行?
发布于 2018-10-28 02:11:57
每个集群中的一个作业可能是一种很有吸引力的方法,但是当然,如果这些任务是短暂的,那么为每个作业启动一个集群的开销可能是很不幸的。这种方法的一个优点是安全性,因为作业可以适当地彼此隔离。
另一方面,在单个集群中运行大量作业,随着任务管理器和作业数量的增加,协调集群中的所有检查点活动可能成为瓶颈(假设启用了检查点)。
https://stackoverflow.com/questions/52996108
复制相似问题