首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用lapply()查找因素变量的百分比

使用lapply()查找因素变量的百分比
EN

Stack Overflow用户
提问于 2015-07-10 20:53:53
回答 2查看 1.5K关注 0票数 4

我有一个数据框架,它由4列组成,每列代表问题,每列作为代表响应的4个级别。

代码语言:javascript
复制
  Q1 Q2
1  A  A
2  A  B
3  B  B
4  C  C
5  D  D

我想导出这样的data.frame

代码语言:javascript
复制
   question response percent
1       Q2        A     0.2
2       Q2        B     0.4
3       Q2        C     0.2
4       Q2        D     0.2
5       Q1        A     0.4
6       Q1        B     0.2
7       Q1        C     0.2
8       Q1        D     0.2

到目前为止,我一直在使用for循环来实现这一点,但是我的脚本中充斥着for循环,所以我希望使用reshape2lapply中的函数来实现这一点。例如,这段代码比for循环干净得多,但仍然不完全符合我的要求。任何帮助都将不胜感激!

到目前为止,我得到的是:

代码语言:javascript
复制
lapply(lapply(df, summary), function(x) x/sum(x))

编辑:,包括每个请求的数据帧示例。我原本担心它会占用太多的空间,因为水平标签太长,所以我把它们缩短了。

代码语言:javascript
复制
dput(df[1:4,])
structure(list(Q1 = structure(c(4L, 4L, 1L, 4L), .Label = c("1.A", 
    "1.B", "1.C", "1.D"), class = "factor"), 
    Q2 = structure(c(4L, 4L, 4L, 1L), .Label = c("2.A","2.B",
    "2.C", "2.D"), class = "factor"), 
    Q3 = structure(c(4L, 3L, 4L, 4L), .Label = c("3.A","3.B",
    "3.C","3.D"), class = "factor"), 
    Q4 = structure(c(3L, 1L, 3L, 3L), .Label = c("4.A","4.B", 
    "4.C","4.D")), 
    .Names = c("Q1.pre", "Q2.pre", "Q3.pre", "Q4.pre"), row.names = c(NA, 4L), 
    class = "data.frame")

我发现Lafortune和been 20650的回应组合给了我几乎完全符合我一直在寻找的东西:

代码语言:javascript
复制
melt(sapply(df, function(x) prop.table(table(x))))

然而,有一个问题。在sapply级别上,dimnames与Q1级别的标签名称相同,因此在执行sapply输出melt之后,Var1列只是Q1s级别的重复,而我希望Var1在Q1行中有Q1级别,在Q2行中有Q2级别等等。在对df这样的操作执行之前,我通过将所有列的levels拉到一个单独的变量qnames中找到了解决办法:

代码语言:javascript
复制
qnames = melt(sapply(df, levels))
qnames = qnames[ ,3]
melt(sapply(df, function(x) prop.table(table(x))))
df = cbind(qnames, df)

这正是我需要的结果。我感兴趣的是,在没有额外的sapplycbind的情况下,是否有办法做到这一点,所以我将把这个问题留长一点。谢谢你的帮忙!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-07-10 21:07:01

使用data.table的单线行

代码语言:javascript
复制
library(data.table) # 1.9.5+
dt<-data.table(Q1=c("A","A","B","C","D"),
               Q2=c("A","B","B","C","D"))

rbindlist(lapply(
  names(dt),
  function(x)dt[,.N/nrow(dt),by=x
                ][,.(question=x,response=get(x),percent=V1)]))
票数 2
EN

Stack Overflow用户

发布于 2015-07-10 21:01:24

代码语言:javascript
复制
library(reshape2)
indx <- lapply(df, function(x) prop.table(table(x)))
out <- melt(do.call(rbind, indx))
out <- out[order(out$Var1, decreasing=TRUE),];rownames(out) <- NULL
#   Var1 Var2 value
# 1   Q2    A   0.2
# 2   Q2    B   0.4
# 3   Q2    C   0.2
# 4   Q2    D   0.2
# 5   Q1    A   0.4
# 6   Q1    B   0.2
# 7   Q1    C   0.2
# 8   Q1    D   0.2

您可以使用lapplyreshape2,但是有一个很好的函数是prop.table。当它包装table函数时,它将为您完成百分比。我们使用lapply为每个列创建一个比例表,然后将它们与始终忠实的do.call(rbind, lst)组合起来。最后一行是“看”。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31350095

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档