首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在Dataproc中运行300+并发spark作业的最佳方式?

在Dataproc中运行300+并发spark作业的最佳方式?
EN

Stack Overflow用户
提问于 2020-11-04 16:29:32
回答 1查看 77关注 0票数 2

我有一个具有2个工作节点(n1s2)的Dataproc集群。有一个外部服务器,它在一小时内提交大约360个spark任务(每次提交之间有几分钟的间隔)。第一个作业成功完成,但随后的作业被卡住,根本不能继续。

每个作业处理一些时间序列数字并写入Cassandra。当集群完全空闲时,通常需要3-6分钟。

我觉得这可以通过扩展集群来解决,但对我来说会变得非常昂贵。还有什么其他选项可以最好地解决这个用例?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-05 03:42:22

在2个工作节点集群上运行300+并发作业听起来并不可行。您需要首先估计每个作业需要多少资源(CPU、内存、磁盘),然后再为集群大小制定计划。像可用CPU,可用内存,特别是挂起内存这样的纱线指标将有助于识别资源不足的情况。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64676480

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档