我将在Hadoop中同时运行3个作业,它们是无关的。
其中一个文件的输入是over,慢下载大型文件的。
其他的是来自HDFS、和S3N文件系统的S3N输入。
我刚开始在Hadoop建造这样的东西。
这个映射/输入/数据获取阶段是如何由Hadoop处理的?
发布于 2012-10-25 06:15:25
在mapreduce中,通常所有的地图/还原器都做同样的工作。
但是,您可以通过两种不同的解决方案来实现您的目标:
1.基本上,您应该考虑将作业分割到两个独立的作业上,然后用每个节点指定的任务数启动它们。https://issues.apache.org/jira/browse/HADOOP-5170,但此修补程序仅适用于cdh,而不适用于基本分布。
2.另一种选择是实现您自己的输入格式,它将能够对每个节点的地图操作进行编码并平衡不同任务的数量。这可以通过在InputSplit中为每个拆分指定主机来实现。
https://stackoverflow.com/questions/13043364
复制相似问题