我有一个具有2个工作节点(n1s2)的Dataproc集群。有一个外部服务器,它在一小时内提交大约360个spark任务(每次提交之间有几分钟的间隔)。第一个作业成功完成,但随后的作业被卡住,根本不能继续。
每个作业处理一些时间序列数字并写入Cassandra。当集群完全空闲时,通常需要3-6分钟。
我觉得这可以通过扩展集群来解决,但对我来说会变得非常昂贵。还有什么其他选项可以最好地解决这个用例?
发布于 2020-11-05 03:42:22
在2个工作节点集群上运行300+并发作业听起来并不可行。您需要首先估计每个作业需要多少资源(CPU、内存、磁盘),然后再为集群大小制定计划。像可用CPU,可用内存,特别是挂起内存这样的纱线指标将有助于识别资源不足的情况。
https://stackoverflow.com/questions/64676480
复制相似问题