首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hadoop,机器之间负载不均匀

Hadoop,机器之间负载不均匀
EN

Stack Overflow用户
提问于 2016-01-19 18:34:54
回答 1查看 73关注 0票数 1

我有一个由4台机器组成的集群,我需要对其运行基准测试。

我决定使用Terasort进行基准测试。

但是,当我运行基准测试时,只有四分之一的计算机处于负载状态,而其他三台计算机完全处于空闲状态。

如果我再次运行测试,一台不同的机器将完全处于负载状态,而其他三台机器将处于空闲状态。

当我使用Teragen创建数据集时,一切都运行得很好,负载在所有四台机器之间均匀分布。

在此配置中可能会出现什么错误?

谢谢

EN

回答 1

Stack Overflow用户

发布于 2016-01-19 22:31:44

我希望您的集群正确分布为4个节点(1个名称节点,1个辅助名称节点,2个数据节点)

流程就像从name-node开始一样,作业跟踪器将为具有数据块的任务跟踪器调度作业。

数据节点的使用取决于几个因素,如复制数量、映射器数量和块数量。

如果数据块数量较多,则会均匀放置在集群的所有数据节点中。如果复制因子为2,则数据块在两个数据节点中都可用。因此两者都可以运行处理这些块的映射器

如果一个文件有两个块,两个映射器将在数据节点中同时运行,并正确利用资源。

在您的情况下,似乎块大小是问题所在。试着减少它。因此,应该至少有2个数据块,这使得利用率更高,性能也更好。

Hadoop可以根据您的需要通过以下设置进行调整。

代码语言:javascript
复制
dfs.replication in hdfs-site.xml
dfs.block.size in hdfs-site.xml

祝你好运!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34874506

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档