我有一个包含一组分数和一组分组变量的数据,类似于:
s1 s2 s3 g1 g2 g3
4 3 7 F F T
6 2 2 T T T
2 4 9 G G F
1 3 1 T F G我想要运行一个聚合,目前我正在做:
aggregate(df[c("s1","s2","s3")],df["g1"],function(x) c(m =mean(x, na.rm=T), sd = sd(x, na.rm=T), n = length(x)))我希望只有一行代码,这样我就可以一次用多个因素聚合多个变量。注意,我并不试图通过g1-3的组合来获得s1-3的摘要(根据答案这里)。我看过summaryBy包中的doBy,但这似乎是每个因素的组合,而不仅仅是一个我不想要的整体(虽然有用!)。我一直在玩变体:
apply(df[c("g1","g2","g3")], 2, function (z) aggregate(df[c("s1","s2","s3")],z,function(x) c(m =mean(x, na.rm=T), sd = sd(x, na.rm=T), n = length(x)))但是我得到了一个错误:"'by‘必须是一个列表“。我想我可以想出如何用loop来实现这一点,我知道在不同版本的ddply或reshape中,您可以获得聚合,但是最直观的方法(至少对我来说)似乎是一个apply和aggregate --我缺少了什么?
发布于 2015-02-23 17:33:24
让我们将问题中的匿名函数命名如下。然后,最后的Map语句通过每个分组变量分别将aggregate应用于df[1:3]:
mean.sd.n <- function(x) c(m = mean(x, na.rm=T), sd = sd(x, na.rm=T), n = length(x))
Map(function(nm) aggregate(df[1:3], df[nm], mean.sd.n), names(df)[4:6])给予:
$g1
g1 s1.m s1.sd s1.n s2.m s2.sd s2.n s3.m s3.sd s3.n
1 F 4.000000 NA 1.000000 3.0000000 NA 1.0000000 7.0000000 NA 1.0000000
2 G 2.000000 NA 1.000000 4.0000000 NA 1.0000000 9.0000000 NA 1.0000000
3 T 3.500000 3.535534 2.000000 2.5000000 0.7071068 2.0000000 1.5000000 0.7071068 2.0000000
$g2
g2 s1.m s1.sd s1.n s2.m s2.sd s2.n s3.m s3.sd s3.n
1 F 2.50000 2.12132 2.00000 3 0 2 4.000000 4.242641 2.000000
2 G 2.00000 NA 1.00000 4 NA 1 9.000000 NA 1.000000
3 T 6.00000 NA 1.00000 2 NA 1 2.000000 NA 1.000000
$g3
g3 s1.m s1.sd s1.n s2.m s2.sd s2.n s3.m s3.sd s3.n
1 F 2.000000 NA 1.000000 4.0000000 NA 1.0000000 9.000000 NA 1.000000
2 G 1.000000 NA 1.000000 3.0000000 NA 1.0000000 1.000000 NA 1.000000
3 T 5.000000 1.414214 2.000000 2.5000000 0.7071068 2.0000000 4.500000 3.535534 2.000000注意:可以通过使用gsubfn封装中的fn$来略为缩短。它允许我们使用公式表示法在以Map开头的代码行中指定匿名函数,如下所示:
library(gsubfn)
fn$Map(nm ~ aggregate(df[1:3], df[nm], mean.sd.n), names(df)[4:6])https://stackoverflow.com/questions/28679353
复制相似问题