文章/答案/技术大牛

发布

社区首页 >问答首页 >按因子变量计算的数据中的Colmeans

问按因子变量计算的数据中的Colmeans
EN

Stack Overflow用户

提问于 2015-05-11 13:38:07

回答 3查看 2.6K关注 0票数 3

我试图得到不同因素的数据中的一些变量的平均值。说我有：

    time    geo var1    var2   var3    var4
1   1990    AT  1       7      13       19
2   1991    AT  2       8      14       20
3   1992    AT  3       9      15       21
4   1990    DE  4       10     16       22
5   1991    DE  5       11     17       23
6   1992    DE  6       12     18       24

我想：

    time    geo var1    var2   var3    var4   m_var2   m_var3
1   1990    AT  1       7      13       19    8        14
2   1991    AT  2       8      14       20    8        14
3   1992    AT  3       9      15       21    8        14
4   1990    DE  4       10     16       22    11       17
5   1991    DE  5       11     17       23    11       17
6   1992    DE  6       12     18       24    11       17

我用by()和lapply()尝试了一些东西，但我认为这是在蹒跚学步的方向上。

require(plyr)
Dataset <- data.frame(time=rep(c(1990:1992),2),geo=c(rep("AT",3),rep("DE",3))
      ,var1=as.numeric(c(1:6)),var2=as.numeric(c(7:12)),var3=as.numeric(c(13:18)),
      var4=as.numeric(c(19:24)))

newvars <- c("var2","var3")
newData <- Dataset[,c("geo",newvars)]

目前，我可以在两个错误中进行选择：

ddply(newData,newData[,"geo"],colMeans) 
#where R apparently thinks AT is the variable?

ddply(newData,"geo",colMeans)
#where R worries about the factor variable not being numeric?

我的应用尝试让我做了很大的努力，但随后我留下了一个列表，我无法返回到dataframe中：

lapply(newvars,function(x){
       by(Dataset[x],Dataset[,"geo"],function(x) 
       rep(colMeans(x,na.rm=T),length(unique(Dataset[,"time"]))))
       })

我认为这甚至必须能够与合并和过滤器，如这里：Lapply in a dataframe over different variables using filters，但我不能把它放在一起。任何帮助都将不胜感激！

dataframe

data.table

plyr

回答 3

Stack Overflow用户

回答已采纳

发布于 2015-05-11 13:41:30

一种选择是使用data.table。我们可以将data.frame转换为data.table (setDT(df1))，通过在.SDcols中指定按'geo‘分组的列索引，获得所选列('var2’和'var3')的mean (lapply(.SD, mean))。通过将输出(:=)分配给新列名(paste('m', names(df1)[4:5]))来创建新列

library(data.table)
setDT(df1)[, paste('m', names(df1)[4:5], sep="_") :=lapply(.SD, mean)
            ,by = geo, .SDcols=4:5]
#     time geo var1 var2 var3 var4 m_var2 m_var3
#1: 1990  AT    1    7   13   19      8     14
#2: 1991  AT    2    8   14   20      8     14
#3: 1992  AT    3    9   15   21      8     14
#4: 1990  DE    4   10   16   22     11     17
#5: 1991  DE    5   11   17   23     11     17
#6: 1992  DE    6   12   18   24     11     17

注意：这种方法更通用。我们可以创建mean列，即使是为100个变量创建，而不需要对代码进行任何重大更改。即。如果需要获得列4:100的mean，请更改.SDcols=4:100和paste('m', names(df1)[4:100]。

数据

df1 <- structure(list(time = c(1990L, 1991L, 1992L, 1990L, 1991L, 1992L
), geo = c("AT", "AT", "AT", "DE", "DE", "DE"), var1 = 1:6, var2 = 7:12, 
var3 = 13:18, var4 = 19:24), .Names = c("time", "geo", "var1", 
"var2", "var3", "var4"), class = "data.frame", row.names = c("1", 
"2", "3", "4", "5", "6"))

票数 6

Stack Overflow用户

发布于 2015-05-11 13:51:57

使用dplyr的其他方法

library(dplyr)
df1 %>% group_by(geo) %>% mutate(m_var2=mean(var2), m_var3=mean(var3))

票数 7

Stack Overflow用户

发布于 2015-05-11 13:54:53

另一个简单的R基解就是

transform(df, m_var2 = ave(var2, geo), m_var3 = ave(var3, geo))
#   time geo var1 var2 var3 var4 m_var2 m_var3
# 1 1990  AT    1    7   13   19      8     14
# 2 1991  AT    2    8   14   20      8     14
# 3 1992  AT    3    9   15   21      8     14
# 4 1990  DE    4   10   16   22     11     17
# 5 1991  DE    5   11   17   23     11     17
# 6 1992  DE    6   12   18   24     11     17

几年后，我认为一种更简洁的方法是更新实际数据集(而不是创建新的数据集)，并对列向量进行操作(而不是手动编写列)。

vars <- paste0("var", 2:3) # Select desired cols
df[paste0("m_", vars)] <- lapply(df[vars], ave, df[["geo"]]) # Loop and update

票数 7

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30169181

复制

相似问题

问按因子变量计算的数据中的Colmeans
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问按因子变量计算的数据中的ColmeansEN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问按因子变量计算的数据中的Colmeans
EN