我想在Amazon上加速一个简单的Apache (0.13.1)或Pig (版本0.12.0)的聚合工作。我的数据已经在需要聚合的键上排序了,我希望作业能够利用这一点。TABLE s3 select gram, sum(occurrences) from ngrams where year >= 1910 group by gram;
对于Hive,我找不到一个方法来告诉它数据已经被排序了'collected' on group; data must be loaded via loader implementin