问猪查询-在AWS EMR中给出不一致的结果
EN

Stack Overflow用户

提问于 2018-10-20 23:48:21

回答 1查看 28关注 0票数 0

我对猪很陌生。我编写了一个查询，但没有按照预期的方式工作。我正在尝试处理提供给我的Google ngram数据集。

我加载的数据是1GB。 bigram= LOAD‘$(输入)’AS (bigram:chararray，年份:int，并发:int，book:int)；
然后，我选择了一个子集，该子集仅限于2000项。极限图=2000年极限值；
然后查看有限数据的转储(粘贴示例输出)。 (GB产品，2006，1) (GB产品，2007，5) (GB wall_NOUN,2007,27,7) (GB wall_NOUN,2008,35,6) (GB2，_.,1906,1,1) (GB2，_.,1938,1,1)
现在我用边缘图做一个小组 D=群边图；
当我看到D的数据转储时，我看到一个完全不同的数据集(示例) (GLABRIO .,1977,3,3)，(GLABRIO .,1992,3,3)，(GLABRIO .,1997,1,1)，(GLABRIO .,2000,6,6)，(GLABRIO .,2001,9,1)，(GLABRIO .,2002,24,3)，(GLABRIO .,2003,3,1)}) (玻璃薄膜，{(玻璃薄膜，1978，1)，(玻璃薄膜，1976，2，1)，(玻璃薄膜，1970，3，3)，(玻璃薄膜，1966，7，1)，(玻璃薄膜，1961，1，1)，(玻璃薄膜，1958，1，(玻璃薄膜，195，1，1)，(玻璃薄膜，189，2，2)，(玻璃薄膜，1986，6，3)，(玻璃薄膜，1984，1)，(玻璃薄膜，1980，7，3)}

现在，我没有附加整个输出，因为这两个输出之间甚至没有一行重叠(即在分组之前、在组后)。因此，查看输出文件并不重要。

这一切为什么要发生？

apache-pig

amazon-emr

回答 1

Stack Overflow用户

发布于 2018-10-22 15:37:42

垃圾堆是准确的。Pig中的GROUP BY操作符为每个组创建一个记录，并将属于该组的每条记录放入一个袋子中。您确实可以在第二个转储的最后一个记录中看到这一点。这张唱片代表的是一组玻璃薄膜，并且有一个装有记录的袋子，里面有像玻璃薄膜一样的记录。您可以在这里阅读有关GROUP BY运算符的更多信息：operator.htm

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52910999

复制

相似问题

问猪查询-在AWS EMR中给出不一致的结果
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问猪查询-在AWS EMR中给出不一致的结果EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问猪查询-在AWS EMR中给出不一致的结果
EN