在使用mrjob时,如何指定TotalOrderPartitioner?这是默认的,还是必须显式指定?我在不同的数据集上看到了不一致的行为。
发布于 2016-03-04 18:37:33
您可以使用job.setPartitionerClass(TotalOrderPartitioner.class);指定它
它不是默认的分区器类。默认的是HashPartitioner类。
这不是一个非常容易使用的分区系统。使用InputSampler时,必须使用TotalOrderPartitioner对输入中的数据进行预采样。
我编写了一个非常详细的教程,提供了如何使用这些这里的示例和插图(从初学者到高级用法)。
https://stackoverflow.com/questions/35643517
复制相似问题