我对猪很陌生。我编写了一个查询,但没有按照预期的方式工作。我正在尝试处理提供给我的Google ngram数据集。
现在,我没有附加整个输出,因为这两个输出之间甚至没有一行重叠(即在分组之前、在组后)。因此,查看输出文件并不重要。
这一切为什么要发生?
发布于 2018-10-22 15:37:42
垃圾堆是准确的。Pig中的GROUP BY操作符为每个组创建一个记录,并将属于该组的每条记录放入一个袋子中。您确实可以在第二个转储的最后一个记录中看到这一点。这张唱片代表的是一组玻璃薄膜,并且有一个装有记录的袋子,里面有像玻璃薄膜一样的记录。您可以在这里阅读有关GROUP BY运算符的更多信息:operator.htm
https://stackoverflow.com/questions/52910999
复制相似问题