首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >猪项目计数和直方图

猪项目计数和直方图
EN

Stack Overflow用户
提问于 2015-03-26 21:06:25
回答 2查看 956关注 0票数 0

这是一个由两部分组成的问题:

第1部分:

我正在使用cloudera pig编辑器来转换我的数据。该数据集来自美国专利引用数据集。第一列是“引用”专利。剩下的数据是引用第一个专利的专利。

3858241 3634889,3557384,3398406,1324234,956203

3858242 3707004,3668705,3319261,1515701

3858243 3684611,3681785,3574238,3221341,3156927,3146465,2949611

3858244 2912700,2838924,2635670,2211676,17445,14040

3858245 3755824,3699969,3621837,3608095,3553737,3176316,2072303

3858246 3601877,3503079,3451067

3858247 3755824,3694819,3621837,2807431,1600859

我需要创建猪代码,将计算第一个专利的引用数量。因此,我需要输出为:

3858241 5

3858242 4

3858243 7

3858244 6

3858245 7

3858246 3

3858247 6

第2部分:我需要使用PIG脚本为问题1的输出创建一个直方图。

任何帮助都将不胜感激。

谢谢

EN

回答 2

Stack Overflow用户

发布于 2015-03-27 13:33:31

这个脚本应该可以工作。

代码语言:javascript
复制
X = LOAD 'pigpatient.txt' using PigStorage(' ') AS (pid:int,str:chararray);

X1 = FOREACH X GENERATE pid,STRSPLIT(str, ',') AS (y:tuple());

X2 = FOREACH X1 GENERATE  pid,SIZE(y) as numofcitan;

dump X2;

X3 = group X2 by numofcitan;

Histograms = foreach X3 GENERATE group as numofcitan,COUNT(X2.pid); 

dump Histograms;

输入:

3858241 3634889,3557384,3398406,1324234,956203 3858242 3707004,3668705,3319261,1515701 3858243 3684611,3681785,3574238,3221341,3156927,3146465,2949611 3858244 2912700,2838924,2635670,2211676,17445,14040 3858245 3755824,3699969,3621837,3608095,3553737,3176316,2072303 3858246 3601877,3503079,3451067 3858247 3755824,3694819,3621837,2807431,1600859

结果:

代码语言:javascript
复制
  (3858241,5)
  (3858242,4)
  (3858243,7)
  (3858244,6)
  (3858245,7)
  (3858246,3)
  (3858247,5)

直方图输出:

代码语言:javascript
复制
 Number of citatatins,number of patients

(3,1)
(4,1)
(5,2)
(6,1)
(7,2)
票数 0
EN

Stack Overflow用户

发布于 2018-02-16 20:37:22

@Sravan K Reddy的答案足够好作为解决方案,但了解什么是直方图是必要的?

直方图是数据集的频率分布,给出了数据的统计信息。最常用的直方图类型有:等宽和等深,称为等高或等高平衡。

在数据库工具中,等深度直方图是首选。例如: Oracle see

@Sravan K Reddy打算创建等宽的专利引用直方图。然而,为了创建直方图,必须对数据进行排序。这对于构建直方图至关重要。

如果您想创建大数据的直方图,请阅读this paper并检查Apache Pig Scripts

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29279222

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档