首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >聚合/折叠数据帧

聚合/折叠数据帧
EN

Stack Overflow用户
提问于 2016-04-16 04:37:05
回答 1查看 416关注 0票数 0

在R中是否有一个"all- in -one“方便函数,可以折叠/聚合数据帧来解决多对多问题?其动机是减少多对多关系,以便可以在某个主键(具有唯一标识符值的列)上联接两个或更多个表。为了说明这一点,请考虑如下数据框架:

代码语言:javascript
复制
set.seed(1) # for reproducibility
df <- data.frame(id = sort(rep(seq(1,3),4)), # primary key
           geo_loc = state.abb[sample(seq(1,length(state.name)), # state abbreviations
                           size=length(sort(rep(seq(1,3),4))), 
                           replace = TRUE)],
           revenue = c(sample(seq(0,50),size=3), sample(c(seq(101,200)),size=3),
                          sample(seq(201,300),size=4), sample(seq(301,1000),size=2)),
           prod_id = sample(LETTERS[c(seq(1,4))],size=12, replace=TRUE),
           quant = c(sample(seq(0,5),size=4), sample(c(seq(3,8)),size=4),
                        sample(seq(6,11),size=2), sample(seq(9,14),size=2))) ; df

   id geo_loc revenue prod_id quant
1   1      MN      47       D     0
2   1      MA      29       B     3
3   1      SD      50       B     4
4   1      NM     174       A     1
5   2      NC     136       D     6
6   2      LA     143       B     5
7   2      IN     215       C     8
8   2      WY     202       A     4
9   3      NY     271       A    10
10  3      HI     211       C     9
11  3      CT     613       C    10
12  3      MS     748       A    14

是否已经存在一个函数可以折叠这个表,使得每个唯一的id只有一行?它必须将geo_locprod_id列转换为k levels 1虚拟列。如果这样的函数可以允许基于分位数将revenue自动聚类为多个块,那就更好了。

EN

回答 1

Stack Overflow用户

发布于 2016-04-17 18:57:14

只有当你有一个正确的分组变量时,才能进行聚合。例如,按prod_id进行聚合会更符合逻辑。

要执行这些数据整理和聚合操作,我个人推荐使用tidyr包中的spread()gather(),以及dplyr包中的summarise()group_by()

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36656400

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档