首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >猪查询-在AWS EMR中给出不一致的结果

猪查询-在AWS EMR中给出不一致的结果
EN

Stack Overflow用户
提问于 2018-10-20 23:48:21
回答 1查看 28关注 0票数 0

我对猪很陌生。我编写了一个查询,但没有按照预期的方式工作。我正在尝试处理提供给我的Google ngram数据集。

  1. 我加载的数据是1GB。 bigram= LOAD‘$(输入)’AS (bigram:chararray,年份:int,并发:int,book:int);
  2. 然后,我选择了一个子集,该子集仅限于2000项。 极限图=2000年极限值;
  3. 然后查看有限数据的转储(粘贴示例输出)。 (GB产品,2006,1) (GB产品,2007,5) (GB wall_NOUN,2007,27,7) (GB wall_NOUN,2008,35,6) (GB2,_.,1906,1,1) (GB2,_.,1938,1,1)
  4. 现在我用边缘图做一个小组 D=群边图;
  5. 当我看到D的数据转储时,我看到一个完全不同的数据集(示例) (GLABRIO .,1977,3,3),(GLABRIO .,1992,3,3),(GLABRIO .,1997,1,1),(GLABRIO .,2000,6,6),(GLABRIO .,2001,9,1),(GLABRIO .,2002,24,3),(GLABRIO .,2003,3,1)}) (玻璃薄膜,{(玻璃薄膜,1978,1),(玻璃薄膜,1976,2,1),(玻璃薄膜,1970,3,3),(玻璃薄膜,1966,7,1),(玻璃薄膜,1961,1,1),(玻璃薄膜,1958,1,(玻璃薄膜,195,1,1),(玻璃薄膜,189,2,2),(玻璃薄膜,1986,6,3),(玻璃薄膜,1984,1),(玻璃薄膜,1980,7,3)}

现在,我没有附加整个输出,因为这两个输出之间甚至没有一行重叠(即在分组之前、在组后)。因此,查看输出文件并不重要。

这一切为什么要发生?

EN

回答 1

Stack Overflow用户

发布于 2018-10-22 15:37:42

垃圾堆是准确的。Pig中的GROUP BY操作符为每个组创建一个记录,并将属于该组的每条记录放入一个袋子中。您确实可以在第二个转储的最后一个记录中看到这一点。这张唱片代表的是一组玻璃薄膜,并且有一个装有记录的袋子,里面有像玻璃薄膜一样的记录。您可以在这里阅读有关GROUP BY运算符的更多信息:operator.htm

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52910999

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档