如何确定火花独立集群模式下的员工人数?当我在独立集群模式中添加工作人员时,持续时间将减少。
例如,对于我的输入数据3.5G,WordCount需要3.8min。但是,在我添加一个内存为4G的工作人员后,需要2.6分钟。
可以增加工人来调节火花吗?我在考虑这方面的风险。
我的环境设置如下,
输入数据信息
发布于 2014-12-01 07:59:08
您可以调优执行器(JVM的数量及其内存)以及任务的数量。如果您所做的工作可以从并行性中受益,您可以通过配置旋转更多的执行器,并增加任务的数量(通过调用代码中的分区/合并等)。
当您设置并行性时,请考虑如果您主要执行IO或计算等操作,通常情况下,火花推荐用于每个CPU核心的2-3个任务。
https://stackoverflow.com/questions/27222752
复制相似问题