我有一个Hadoop作业正在运行,它已经完成地图部分4天了,现在它似乎在reduce阶段被挂起(reducer完成了30%)
我真的希望有一种方法,如果可能的话,只重新处理reduce部分,而不需要重新处理长期的map部分,有什么建议吗?可能更糟糕的是,我只有一个减速器。
发布于 2012-03-09 16:47:07
Hadoop只会在您的情况下重新启动Reduce步骤。
但是,如果您的工作失败了,您不能跳过map步骤。在这种情况下,您可能应该将这两个阶段划分为单独的作业,特别是如果您的映射器是计算密集型的。
https://stackoverflow.com/questions/9630750
复制相似问题