首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >火花独立集群模式下的员工人数

火花独立集群模式下的员工人数
EN

Stack Overflow用户
提问于 2014-12-01 06:21:11
回答 1查看 1.1K关注 0票数 0

如何确定火花独立集群模式下的员工人数?当我在独立集群模式中添加工作人员时,持续时间将减少。

例如,对于我的输入数据3.5G,WordCount需要3.8min。但是,在我添加一个内存为4G的工作人员后,需要2.6分钟。

可以增加工人来调节火花吗?我在考虑这方面的风险。

我的环境设置如下,

  • 内存128 G,用于9 VM的16 CPU
  • Centos
  • Hadoop 2.5.0-cdh5.2.0
  • 火花1.1.0

输入数据信息

  • 3.5 G来自HDFS的数据文件
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-12-01 07:59:08

您可以调优执行器(JVM的数量及其内存)以及任务的数量。如果您所做的工作可以从并行性中受益,您可以通过配置旋转更多的执行器,并增加任务的数量(通过调用代码中的分区/合并等)。

当您设置并行性时,请考虑如果您主要执行IO或计算等操作,通常情况下,火花推荐用于每个CPU核心的2-3个任务。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27222752

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档