文章/答案/技术大牛

发布

社区首页 >问答首页 >内嵌套聚合适用于R中的多个变量聚合多列

问内嵌套聚合适用于R中的多个变量聚合多列
EN

Stack Overflow用户

提问于 2015-02-23 17:12:12

回答 1查看 771关注 0票数 0

我有一个包含一组分数和一组分组变量的数据，类似于：

s1 s2 s3 g1 g2 g3
4  3  7  F   F  T
6  2  2  T   T  T
2  4  9  G   G  F
1  3  1  T   F  G

我想要运行一个聚合，目前我正在做：

aggregate(df[c("s1","s2","s3")],df["g1"],function(x) c(m =mean(x, na.rm=T), sd = sd(x, na.rm=T), n = length(x)))

我希望只有一行代码，这样我就可以一次用多个因素聚合多个变量。注意，我并不试图通过g1-3的组合来获得s1-3的摘要(根据答案这里)。我看过summaryBy包中的doBy，但这似乎是每个因素的组合，而不仅仅是一个我不想要的整体(虽然有用！)。我一直在玩变体：

apply(df[c("g1","g2","g3")], 2, function (z) aggregate(df[c("s1","s2","s3")],z,function(x) c(m =mean(x, na.rm=T), sd = sd(x, na.rm=T), n = length(x)))

但是我得到了一个错误："'by‘必须是一个列表“。我想我可以想出如何用loop来实现这一点，我知道在不同版本的ddply或reshape中，您可以获得聚合，但是最直观的方法(至少对我来说)似乎是一个apply和aggregate --我缺少了什么？

aggregate

nested-loops

apply

summary

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-02-23 17:33:24

让我们将问题中的匿名函数命名如下。然后，最后的Map语句通过每个分组变量分别将aggregate应用于df[1:3]：

mean.sd.n <- function(x) c(m = mean(x, na.rm=T), sd = sd(x, na.rm=T), n = length(x))

Map(function(nm) aggregate(df[1:3], df[nm], mean.sd.n), names(df)[4:6])

给予：

$g1
  g1     s1.m    s1.sd     s1.n      s2.m     s2.sd      s2.n      s3.m     s3.sd      s3.n
1  F 4.000000       NA 1.000000 3.0000000        NA 1.0000000 7.0000000        NA 1.0000000
2  G 2.000000       NA 1.000000 4.0000000        NA 1.0000000 9.0000000        NA 1.0000000
3  T 3.500000 3.535534 2.000000 2.5000000 0.7071068 2.0000000 1.5000000 0.7071068 2.0000000

$g2
  g2    s1.m   s1.sd    s1.n s2.m s2.sd s2.n     s3.m    s3.sd     s3.n
1  F 2.50000 2.12132 2.00000    3     0    2 4.000000 4.242641 2.000000
2  G 2.00000      NA 1.00000    4    NA    1 9.000000       NA 1.000000
3  T 6.00000      NA 1.00000    2    NA    1 2.000000       NA 1.000000

$g3
  g3     s1.m    s1.sd     s1.n      s2.m     s2.sd      s2.n     s3.m    s3.sd     s3.n
1  F 2.000000       NA 1.000000 4.0000000        NA 1.0000000 9.000000       NA 1.000000
2  G 1.000000       NA 1.000000 3.0000000        NA 1.0000000 1.000000       NA 1.000000
3  T 5.000000 1.414214 2.000000 2.5000000 0.7071068 2.0000000 4.500000 3.535534 2.000000

注意：可以通过使用gsubfn封装中的fn$来略为缩短。它允许我们使用公式表示法在以Map开头的代码行中指定匿名函数，如下所示：

library(gsubfn)
fn$Map(nm ~ aggregate(df[1:3], df[nm], mean.sd.n), names(df)[4:6])

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/28679353

复制

相似问题

问内嵌套聚合适用于R中的多个变量聚合多列
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问内嵌套聚合适用于R中的多个变量聚合多列EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问内嵌套聚合适用于R中的多个变量聚合多列
EN