首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于其他数据some映射替换某些行中的值

基于其他数据some映射替换某些行中的值
EN

Stack Overflow用户
提问于 2016-02-27 13:10:54
回答 2查看 3.8K关注 0票数 2

我有一张表(d.tab),上面有来自一项调查的问答对.其中有些是单一选择的答案,有些是多项选择。我想从它的数值中查找单一选择答案的文本值。为此,我有一个查找表(d.lookup)。

我尝试过使用merge,但这有点难看,因为我现在必须过滤掉value != answer_id所在的所有行。是否有更好的方法来做到这一点,可能使用plyrdplyrtidyr

代码语言:javascript
复制
tab = '
question_id question_type   subject value
1   single-choice   1   1
2   multiple-choice 1   2
3   single-choice   1   2
1   single-choice   2   2
2   multiple-choice 2   3,4
3   single-choice   2   2
'

lookup = '
question_id answer_id   answer_text
1   1   female
1   2   male
3   1   no
3   2   yes
'

d.tab = read.table(text = tab, header = TRUE)
d.lookup = read.table(text = lookup, header = TRUE)

merge(d.tab, d.lookup, by = "question_id", all.x = TRUE)

我不想对multiple-choice行做任何事情,我只想更新原始的dataframe,以便在d.tabanswer_textvalue匹配的情况下用实际的文本替换answer_id

我知道我能做到:

代码语言:javascript
复制
merge(d.tab, d.lookup, by.x = c("question_id", "value"), by.y = c("question_id", "answer_id"), all.x = TRUE)

但是这给了我一个新的列answer_text,原来的value仍然存在,我不需要这样做。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-02-27 13:27:08

在你的问题中,你得到了merge()的正确召唤。剩下的就是对具有单一选择答案的行进行筛选,并选择除value以外的所有列。使用dplyr,可以这样做:

代码语言:javascript
复制
library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
  mutate(value = as.numeric(as.character(value))) %>%
  merge(d.lookup, by.x = c("question_id", "value"),
        by.y = c("question_id", "answer_id")) %>%
  select(-value)

第二行包含因子变量value到数值的显式转换。这一点很重要,因为将因素转换为数字可能会导致奇怪的结果。我将在下面添加几行关于这个主题的内容。

请注意,dplyr还附带了自己的函数来替换合并。如果您的表很大,您会注意到这些表更有效率。使用来自left_joindplyr,解决方案如下:

代码语言:javascript
复制
library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
  mutate(value = as.numeric(as.character(value))) %>%
  left_join(d.lookup,
            by = c("question_id" = "question_id",
                   "value" = "answer_id")) %>%
  select(-value)

因此,这是关于我承诺的因素的评论。因子的问题是它们实际上是整数,其中每个整数值都有一个与之关联的标签。当您天真地用as.numeric()将这些因素转换为数字时,您将得到与标签相关联的整数。您几乎肯定会在数据中遇到这个问题,原因如下。

我创建了一个模拟您的数据的因子变量:

代码语言:javascript
复制
values <- factor(c("1", "2", "3,4", "3", "4"))

现在,我丢弃第三个值("3,4")并转换为数字:

代码语言:javascript
复制
as.numeric(values[-3])
## [1] 1 2 3 5

这可能不是你所期望的。原因是数字1到5与我们前面定义的五个级别相关联。如果要获取与标签匹配的数字,首先需要转换为字符:

代码语言:javascript
复制
as.numeric(as.character(values[-3]))
## [1] 1 2 3 4

因此,即使merge()在某个地方将这些因素转换为数字,我也不会以您想要的方式来完成它。因此,您应该显式地进行转换。

票数 8
EN

Stack Overflow用户

发布于 2016-02-27 13:48:17

一种使用data.table的替代解决方案

代码语言:javascript
复制
library(data.table)

# converting to datatables & setting the 'answer_id' to character
setDT(d.tab)
setDT(d.lookup)[, answer_id := as.character(answer_id)]

# join 'd.tab' with 'd.lookup' and update 'value' by reference
d.tab[d.lookup, value := answer_text, on = c("question_id", "value"="answer_id")]

这意味着:

代码语言:javascript
复制
   question_id   question_type subject  value
1:           1   single-choice       1 female
2:           2 multiple-choice       1      2
3:           3   single-choice       1    yes
4:           1   single-choice       2   male
5:           2 multiple-choice       2    3,4
6:           3   single-choice       2    yes

正如@Stibu已经提到的,使用多个值拆分行可能更好。使用splitstackshape包中的cSplit函数的一个示例:

代码语言:javascript
复制
library(splitstackshape)
cSplit(d.tab, "value", sep=",", 
       direction="long", 
       type.convert = FALSE)[d.lookup, 
                             value := answer_text, 
                             on = c("question_id", "value"="answer_id")]

# or everything in 'data.table'
d.tab[, lapply(.SD, function(x) unlist(tstrsplit(x, ','))), setdiff(names(d.tab),"value")
      ][d.lookup, value := answer_text, on = c("question_id", "value"="answer_id")][]

两者都赋予:

代码语言:javascript
复制
   question_id   question_type subject  value
1:           1   single-choice       1 female
2:           2 multiple-choice       1      2
3:           3   single-choice       1    yes
4:           1   single-choice       2   male
5:           2 multiple-choice       2      3
6:           2 multiple-choice       2      4
7:           3   single-choice       2    yes
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35670213

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档