首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >聚类的Mappers估计

聚类的Mappers估计
EN

Stack Overflow用户
提问于 2016-12-29 05:23:44
回答 2查看 160关注 0票数 0

需要对Hadoop集群中特定作业的映射器的估计做一些澄清。根据我的理解,映射器的no取决于用于处理的输入分割。但是,如果我们要对已经驻留在HDFS中的输入数据进行处理,情况就是如此。在这里,我需要澄清由SQOOP作业触发的映射器和减速器。PFB.

  1. 如何根据RAM或输入分块/块估计专用集群的映射器计数?(一般情况下)
  2. 如何根据输入大小估算用于从RDBMS检索数据到HDFS的sqoop作业的映射数?(基于Sqoop)
  3. 什么是核心CPU?它如何影响可以并行运行的映射器的计数?(Genaral)

谢谢。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-12-29 15:14:45

需要对Hadoop集群中特定作业的映射器的估计做一些澄清。根据我的理解,映射器的no取决于用于处理的输入分割。但是,如果我们要对已经驻留在HDFS中的输入数据进行处理,情况就是如此。在这里,我需要澄清由SQOOP作业触发的映射器和减速器。PFB.

  1. 如何根据RAM或输入分块/块估计专用集群的映射器计数?(一般情况下)

答:不,这与内存大小无关。这都取决于输入拆分的数量。

  1. 如何根据输入大小估算用于从RDBMS检索数据到HDFS的sqoop作业的映射数?(基于Sqoop)

答:默认情况下,Sqoop作业的映射器数为4。可以使用-m (1、2、3、4、5.)更改默认设置。或者-num-mappers参数,但是您必须确保您的db中有主键,或者您正在使用-拆分-by参数,否则只有一个映射器在运行,您必须显式地说-m 1。

  1. 什么是核心CPU的含义,以及它如何影响可以并行运行的映射器的计数?(一般)

答: CPU中的核心是可以运行任务的处理单元。当你说4个核心处理器时,这意味着它可以一次运行4个任务。核数不参与mapreduce框架计算映射器的数量。但是是的,如果有4个内核,mapreduce计算出映射器的数量为12,那么在同一时间,4个映射器将并行运行,其余的映射器将连续运行。

票数 0
EN

Stack Overflow用户

发布于 2016-12-29 20:42:43

  1. 如何根据RAM或输入分块/块估计专用集群的映射器计数?(一般情况下) 你是正确的。映射器的数通常基于输入中的DFS块数。
  2. 如何根据输入大小估算用于从RDBMS检索数据到HDFS的sqoop作业的映射数?(基于Sqoop) 默认情况下,将使用四个任务并行导入/导出数据.。 您可以使用-m <number of mappers>选项来更改此选项。参考: Sqoop并行
  3. 什么是核心CPU的含义,以及它如何影响可以并行运行的映射器的计数?(一般) CPU核 是处理单元。简单地说,“核越多越好。”,也就是说,如果我们有更多的核,它就可以处理得更平行。 例子:如果你有4个核心,4个映射器可以并行运行。(理论上!)
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41373574

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档