我试着用Rhadoop计算一些东西(R和hadoop之间的链接)。
当我用Hadoop-1.0.4中的嵌入式示例对我的集群进行基准测试时,它看起来工作得很好。(我的意思是从节点的所有核心都工作了,尽管cpu使用率在50%到100%之间波动)
然而,当我应用Rhadoop的例子时,情况并非如此。(每个从节点只有一个核心被激活。)
是否需要在Rhadoop中设置配置?(就像我对hadoop的配置文件所做的那样,比如core-site.xml)
谢谢
发布于 2013-03-12 00:07:33
您可能正在谈论RHadoop的一部分-- rmr2。rmr2对此没有具体的配置。help(rmr.options)将向您显示所有配置选项。映射任务和映射槽的数量决定了映射阶段的并行度。听起来你有足够的空位。因此map任务的数量可能是不够的。它可能取决于输入的大小和其他属性。您可以向mapreduce传递一个额外的参数,但backend.parameters = list(hadoop = list(D = 'mapred.map.tasks'))不会逐字支持此设置,只是将其作为提示。backend.parameters参数已弃用,但当它被删除时,将为此特定目标提供一些替代机制。如果问题是在reduce阶段,键集的基数也很重要(它设置了并行度的上限)。我同意Paul的观点,如果你提供了一个可重复的例子,我的答案将包含更少的猜测。RHadoop有一个专门的论坛,开发者和用户都是活跃的https://groups.google.com/forum/?fromgroups=#!forum/rhadoop
https://stackoverflow.com/questions/15334366
复制相似问题