我想知道是否可以定义一个分层的MapReduce作业?换句话说,我希望有一个map-reduce作业,它在映射器阶段将调用不同的MapReduce作业。有可能吗?你有什么建议怎么做吗?
我想这样做是为了在我的程序中拥有额外的并行性/分布性。谢谢,阿里克。
发布于 2013-06-11 17:35:25
Hadoop definitive guide book包含了许多与MapReduce作业链相关的方法,包括示例代码和详细解释。尤其是叫做“高级API用法”之类的章节。
我个人成功地用几个HBase表替换了复杂的map-reduce作业,并使用手工TableInputFormat扩展作为源。其结果是将源数据与最小约简相结合的输入格式,从而将作业转化为单个映射器步骤。所以我建议你也朝这个方向看。
发布于 2013-06-10 15:14:28
你应该试试Cascading。它允许您定义具有多个步骤的相当复杂的作业。
发布于 2013-08-21 05:54:21
我想你需要oozie工具。Oozie有助于使用xml文件定义工作流。
https://stackoverflow.com/questions/17018548
复制相似问题