首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >火花,主节点的大小对EMR有影响吗?

火花,主节点的大小对EMR有影响吗?
EN

Stack Overflow用户
提问于 2019-09-22 19:35:02
回答 1查看 2.2K关注 0票数 3

在EMR上运行Spark作业时,主节点实例的大小重要吗?根据我的理解,主节点不处理/计算数据,负责调度任务、与核心和任务节点以及其他管理任务进行通信。

这是否意味着,如果我需要转换并写出10 TB的数据,那么我可以使用一个中间实例作为主节点,而对核心节点使用108xLarge?

基于阅读,我发现大多数人建议主节点实例类型应该与我目前所做的核心实例类型相同,并且工作正常。对于主节点来说,这将是1×8大,对于核心节点是10×大。

根据AWS文档,我们应该使用m4.size,所以我搞不懂什么是正确的。

https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-instances-guidelines.html

主节点没有很大的计算需求。对于大多数50个或更少节点的集群,请考虑使用m4大型实例。对于超过50个节点的集群,请考虑使用m4.xlarge.

EN

回答 1

Stack Overflow用户

发布于 2019-09-22 19:47:34

提出问题的方式有点含糊。尺寸确实很重要,比如负载等等,所以我从一个稍微不同的角度来回答它。“大多数人.”东西既不在这里也不在那里。

硕士在过去被分配的方式是EMR方法的一个弱点,大约9米前,我在PoC上试用了它。为工人分配大量资源,默认情况下,1被分配给大师,这是完全过度的。

所以,如果你做的事情是标准的,你就会为不需要的比主节点更大的资源付费。有一种方法可以为大师定义一个更小的资源,但是我在霍斯,再也找不到它了。

然而,看看这里的url,您现在可以看到,在EMR集群Config中,您可以很容易地定义一个较小的主节点或许多这样的主节点来进行故障转移,自从我上次查看:https://confusedcoders.com/data-engineering/how-to-create-emr-cluster-with-apache-spark-and-apache-zeppelin之后,事情就已经进展顺利了。

有关多个这样的主节点,请参见https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-ha-launch.html

一般来说,主节点在特性上可能与工人不同,通常较小,但并非在所有情况下都是如此。也就是说,EMR的目的将倾向于指向更小的主节点配置。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58052765

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档