我有一个由4台机器组成的集群,我需要对其运行基准测试。
我决定使用Terasort进行基准测试。
但是,当我运行基准测试时,只有四分之一的计算机处于负载状态,而其他三台计算机完全处于空闲状态。
如果我再次运行测试,一台不同的机器将完全处于负载状态,而其他三台机器将处于空闲状态。
当我使用Teragen创建数据集时,一切都运行得很好,负载在所有四台机器之间均匀分布。
在此配置中可能会出现什么错误?
谢谢
发布于 2016-01-19 22:31:44
我希望您的集群正确分布为4个节点(1个名称节点,1个辅助名称节点,2个数据节点)
流程就像从name-node开始一样,作业跟踪器将为具有数据块的任务跟踪器调度作业。
数据节点的使用取决于几个因素,如复制数量、映射器数量和块数量。
如果数据块数量较多,则会均匀放置在集群的所有数据节点中。如果复制因子为2,则数据块在两个数据节点中都可用。因此两者都可以运行处理这些块的映射器
如果一个文件有两个块,两个映射器将在数据节点中同时运行,并正确利用资源。
在您的情况下,似乎块大小是问题所在。试着减少它。因此,应该至少有2个数据块,这使得利用率更高,性能也更好。
Hadoop可以根据您的需要通过以下设置进行调整。
dfs.replication in hdfs-site.xml
dfs.block.size in hdfs-site.xml祝你好运!
https://stackoverflow.com/questions/34874506
复制相似问题