文章/答案/技术大牛

发布

问聚类的Mappers估计
EN

Stack Overflow用户

提问于 2016-12-29 05:23:44

回答 2查看 160关注 0票数 0

需要对Hadoop集群中特定作业的映射器的估计做一些澄清。根据我的理解，映射器的no取决于用于处理的输入分割。但是，如果我们要对已经驻留在HDFS中的输入数据进行处理，情况就是如此。在这里，我需要澄清由SQOOP作业触发的映射器和减速器。PFB.

如何根据RAM或输入分块/块估计专用集群的映射器计数？(一般情况下)
如何根据输入大小估算用于从RDBMS检索数据到HDFS的sqoop作业的映射数？(基于Sqoop)
什么是核心CPU?它如何影响可以并行运行的映射器的计数？(Genaral)

谢谢。

hadoop

mapreduce

sqoop

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-12-29 15:14:45

如何根据RAM或输入分块/块估计专用集群的映射器计数？(一般情况下)

答:不，这与内存大小无关。这都取决于输入拆分的数量。

如何根据输入大小估算用于从RDBMS检索数据到HDFS的sqoop作业的映射数？(基于Sqoop)

答:默认情况下，Sqoop作业的映射器数为4。可以使用-m (1、2、3、4、5.)更改默认设置。或者-num-mappers参数，但是您必须确保您的db中有主键，或者您正在使用-拆分-by参数，否则只有一个映射器在运行，您必须显式地说-m 1。

什么是核心CPU的含义，以及它如何影响可以并行运行的映射器的计数？(一般)

答: CPU中的核心是可以运行任务的处理单元。当你说4个核心处理器时，这意味着它可以一次运行4个任务。核数不参与mapreduce框架计算映射器的数量。但是是的，如果有4个内核，mapreduce计算出映射器的数量为12，那么在同一时间，4个映射器将并行运行，其余的映射器将连续运行。

票数 0

Stack Overflow用户

发布于 2016-12-29 20:42:43

如何根据RAM或输入分块/块估计专用集群的映射器计数？(一般情况下) 你是正确的。映射器的数通常基于输入中的DFS块数。。
如何根据输入大小估算用于从RDBMS检索数据到HDFS的sqoop作业的映射数？(基于Sqoop) 默认情况下，将使用四个任务并行导入/导出数据.。您可以使用-m <number of mappers>选项来更改此选项。参考： Sqoop并行
什么是核心CPU的含义，以及它如何影响可以并行运行的映射器的计数？(一般) CPU核 是处理单元。简单地说，“核越多越好。”，也就是说，如果我们有更多的核，它就可以处理得更平行。 例子:如果你有4个核心，4个映射器可以并行运行。(理论上！)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41373574

复制

相似问题

问聚类的Mappers估计
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问聚类的Mappers估计EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问聚类的Mappers估计
EN