首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >reshape2:聚合函数的多个结果?

reshape2:聚合函数的多个结果?
EN

Stack Overflow用户
提问于 2014-01-31 09:54:08
回答 4查看 4.2K关注 0票数 8

据我所读,* reshape2中的强制转换操作失去了它们的result_variable特性。Hadley暗示为此目的使用plyr (在输入数据帧中附加多个结果列)。我怎么会意识到文档的例子..。

代码语言:javascript
复制
aqm <- melt(airquality, id=c("month", "day"), na.rm=TRUE)
cast(aqm, month ~ variable + result_variable, range)

使用reshape2 (dcast)和plyr (ddply)?

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2014-01-31 16:08:09

由于“reshape2”和“plyr”包的灵活性,这个问题有多个答案。我将在这里展示一个最容易理解的例子:

代码语言:javascript
复制
library(reshape2)
library(plyr)

aqm <- melt(airquality, id=c("Month", "Day"), na.rm=TRUE)
aqm_ply <- ddply(aqm, .(Month, variable), summarize, min=min(value), max=max(value))
aqm_melt <- melt(aqm_ply, id=c("Month", "variable"), variable.name="variable2")
dcast(aqm_melt, Month ~ variable + variable2)

#   Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min  Temp_max
# 1     5         1       115           8         334      5.7     20.1       56        81
# 2     6        12        71          31         332      1.7     20.7       65        93
# 3     7         7       135           7         314      4.1     14.9       73        92
# 4     8         9       168          24         273      2.3     15.5       72        97
# 5     9         7        96          14         259      2.8     16.6       63        93

步骤1:让我们将其分解为步骤。首先,让我们把“aqm”的定义放在一边,从融化的数据中进行工作。这将使示例更容易理解。

代码语言:javascript
复制
aqm <- melt(airquality, id=c("Month", "Day"), na.rm=TRUE)

#     Month Day variable value
# 1       5   1    Ozone  41.0
# 2       5   2    Ozone  36.0
# 3       5   3    Ozone  12.0
# 4       5   4    Ozone  18.0
# ...
# 612     9  30     Temp  68.0

步骤2:现在,我们希望将'value‘列替换为'min’和'max‘列。我们可以通过'plyr‘包中的'ddply’函数来实现这一点。为此,我们使用'ddply‘函数(数据帧作为输入,数据帧作为输出,因此"dd"-ply)。我们首先指定数据。

代码语言:javascript
复制
ddply(aqm,

然后,我们指定我们要使用的变量来分组我们的数据,‘月份’和‘变量’。我们使用.函数直接引用这些变量,而不是引用它们包含的值。

代码语言:javascript
复制
ddply(aqm, .(Month, variable),

现在我们需要选择一个聚合函数。我们在这里选择summarize函数,因为我们有不想包含在最终数据中的列('Day‘和'value')。summarize函数将删除所有原始的、非分组的列。

代码语言:javascript
复制
ddply(aqm, .(Month, variable), summarize,

最后,我们为每个组指定要做的计算。我们可以参考原始数据框架(Aqm)的列,即使它们不会包含在我们的最终数据框架中。这就是它的样子:

代码语言:javascript
复制
aqm_ply <- ddply(aqm, .(Month, variable), summarize, min=min(value), max=max(value))

#    Month variable  min   max
# 1      5    Ozone  1.0 115.0
# 2      5  Solar.R  8.0 334.0
# 3      5     Wind  5.7  20.1
# 4      5     Temp 56.0  81.0
# 5      6    Ozone 12.0  71.0
# 6      6  Solar.R 31.0 332.0
# 7      6     Wind  1.7  20.7
# 8      6     Temp 65.0  93.0
# 9      7    Ozone  7.0 135.0
# 10     7  Solar.R  7.0 314.0
# 11     7     Wind  4.1  14.9
# 12     7     Temp 73.0  92.0
# 13     8    Ozone  9.0 168.0
# 14     8  Solar.R 24.0 273.0
# 15     8     Wind  2.3  15.5
# 16     8     Temp 72.0  97.0
# 17     9    Ozone  7.0  96.0
# 18     9  Solar.R 14.0 259.0
# 19     9     Wind  2.8  16.6
# 20     9     Temp 63.0  93.0

步骤3:我们可以看到数据大大减少了,因为ddply函数聚集了行。现在我们需要再次熔化数据,这样我们就可以为最终的数据帧获得第二个变量。注意,我们需要指定一个新的variable.name参数,这样我们就没有两个名为“变量”的列。

代码语言:javascript
复制
aqm_melt <- melt(aqm_ply, id=c("Month", "variable"), variable.name="variable2")

    #    Month variable variable2 value
# 1      5    Ozone       min   1.0
# 2      5  Solar.R       min   8.0
# 3      5     Wind       min   5.7
# 4      5     Temp       min  56.0
# 5      6    Ozone       min  12.0
# ...
# 37     9    Ozone       max  96.0
# 38     9  Solar.R       max 259.0
# 39     9     Wind       max  16.6
# 40     9     Temp       max  93.0

步骤4:最后,我们可以通过将数据转换成最终形式来结束所有的工作。

代码语言:javascript
复制
dcast(aqm_melt, Month ~ variable + variable2)

#   Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min  Temp_max
# 1     5         1       115           8         334      5.7     20.1       56        81
# 2     6        12        71          31         332      1.7     20.7       65        93
# 3     7         7       135           7         314      4.1     14.9       73        92
# 4     8         9       168          24         273      2.3     15.5       72        97
# 5     9         7        96          14         259      2.8     16.6       63        93

希望这个例子能给你足够的理解,让你开始工作。请注意,一个新的数据帧优化版本的'plyr‘包正在积极开发的名称'dplyr',所以您可能希望准备好将您的代码转换为新的包后,它变得更加成熟。

票数 13
EN

Stack Overflow用户

发布于 2014-02-18 19:17:49

我认为其他答案应包括如何使用"plyr“或"dplyr”(我鼓励你继续朝这个方向看)。

为了好玩,这里有一个dcast包装器,让您可以指定多个函数。它不适用于返回多个值的函数(如range),它要求您使用一个命名的函数列表。

代码语言:javascript
复制
dcastMult <- function(data, formula, value.var = "value", 
                   funs = list("min" = min, "max" = max)) {
  require(reshape2)
  if (is.null(names(funs)) | any(names(funs) == "")) stop("funs must be named")
  Form <- formula(formula)
  LHS <- as.character(Form[[2]])
  if (length(LHS) > 1) LHS <- LHS[-1]
  temp <- lapply(seq_along(funs), function(Z) {
    T1 <- dcast(data, Form, value.var = value.var, 
                fun.aggregate=match.fun(funs[[Z]]), fill = 0)
    Names <- !names(T1) %in% LHS
    names(T1)[Names] <- paste(names(T1)[Names], names(funs)[[Z]], sep = "_")
    T1
  })
  Reduce(function(x, y) merge(x, y), temp)
}

这看起来有点混乱,但结果是,在使用多个聚合函数时,您可以坚持使用熟悉的语法。funs参数的“名称”用作结果名称中的后缀。可以按预期指定匿名函数,例如maxSq = function(x) max(x)^2

代码语言:javascript
复制
dcastMult(aqm, month ~ variable, value.var="value",
       funs = list("min" = min, "max" = max))
#   month ozone_min solar.r_min wind_min temp_min ozone_max solar.r_max wind_max temp_max
# 1     5         1           8      5.7       56       115         334     20.1       81
# 2     6        12          31      1.7       65        71         332     20.7       93
# 3     7         7           7      4.1       73       135         314     14.9       92
# 4     8         9          24      2.3       72       168         273     15.5       97
# 5     9         7          14      2.8       63        96         259     16.6       93
票数 5
EN

Stack Overflow用户

发布于 2014-01-31 16:37:30

下面是一个使用惊人的dplyr函数的%>%解决方案。它还使用了基本的reshape函数,这个函数经常被未充分使用(IMHO)。代码是不言自明的。

代码语言:javascript
复制
library(dplyr)
airquality %>%
  melt(c('Month', 'Day')) %>%
  group_by(Month, variable) %>%
  summarise(min = min(value, na.rm = T), max = max(value, na.rm = T)) %>%
  reshape(timevar = 'variable', idvar = 'Month', direction = 'wide') %>%
  arrange(Month)
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21477040

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档