在EMR上运行Spark作业时,主节点实例的大小重要吗?根据我的理解,主节点不处理/计算数据,负责调度任务、与核心和任务节点以及其他管理任务进行通信。
这是否意味着,如果我需要转换并写出10 TB的数据,那么我可以使用一个中间实例作为主节点,而对核心节点使用108xLarge?
基于阅读,我发现大多数人建议主节点实例类型应该与我目前所做的核心实例类型相同,并且工作正常。对于主节点来说,这将是1×8大,对于核心节点是10×大。
根据AWS文档,我们应该使用m4.size,所以我搞不懂什么是正确的。
https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-instances-guidelines.html
主节点没有很大的计算需求。对于大多数50个或更少节点的集群,请考虑使用m4大型实例。对于超过50个节点的集群,请考虑使用m4.xlarge.
。
发布于 2019-09-22 19:47:34
提出问题的方式有点含糊。尺寸确实很重要,比如负载等等,所以我从一个稍微不同的角度来回答它。“大多数人.”东西既不在这里也不在那里。
硕士在过去被分配的方式是EMR方法的一个弱点,大约9米前,我在PoC上试用了它。为工人分配大量资源,默认情况下,1被分配给大师,这是完全过度的。
所以,如果你做的事情是标准的,你就会为不需要的比主节点更大的资源付费。有一种方法可以为大师定义一个更小的资源,但是我在霍斯,再也找不到它了。
然而,看看这里的url,您现在可以看到,在EMR集群Config中,您可以很容易地定义一个较小的主节点或许多这样的主节点来进行故障转移,自从我上次查看:https://confusedcoders.com/data-engineering/how-to-create-emr-cluster-with-apache-spark-and-apache-zeppelin之后,事情就已经进展顺利了。
有关多个这样的主节点,请参见https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-ha-launch.html。
一般来说,主节点在特性上可能与工人不同,通常较小,但并非在所有情况下都是如此。也就是说,EMR的目的将倾向于指向更小的主节点配置。
https://stackoverflow.com/questions/58052765
复制相似问题