我是Hadoop的新手。
最近,我刚刚做了一个WordCount示例的实现。
但是当我在我的单个节点上运行这个程序时,只有两个输入文件,只有9个字,这样做花费了将近33秒!太疯狂了,这让我很困惑!
有人能告诉我这是否正常吗?
我怎样才能解决这个问题?记住,我只创建了两个输入文件,其中有9个字。
提交主机地址: 127.0.0.1
作业-ACL:允许所有用户
职务设置:成功
现状:成功
开始时间:05年8月5日14:27:22 CST 2011
结束时间:2005年8月5日14:27:53科技委2011
完成时间:30秒
发布于 2011-08-05 09:51:49
Hadoop对于非常小的作业并不有效,因为JVM启动、进程初始化和其他工作需要更多的时间。不过,通过启用JVM重用,可以在一定程度上对其进行优化。
http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html#Task+JVM+Reuse
另外,在Apache Hadoop中也有一些工作要做。
https://issues.apache.org/jira/browse/MAPREDUCE-1220
不确定将包含在哪个版本中,也不确定JIRA的状态如何。
发布于 2011-08-05 07:53:33
这并不稀奇。Hadoop对大型数据集生效。您所看到的可能是Hadoop的初始启动时间。
https://stackoverflow.com/questions/6953077
复制相似问题