首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据清洗.转换为tidyverse

数据清洗.转换为tidyverse
EN

Stack Overflow用户
提问于 2018-03-13 00:57:22
回答 1查看 156关注 0票数 0

我很好奇下面的代码是否可以转换为tidyverse代码。我试过了dplyr::变异,但一直没能让它正常工作。

代码语言:javascript
复制
df$Gender[df$Gender == "M"] <- "Man"
df$Gender[df$Gender == "Male"] <- "Man"
df$Gender[df$Gender == "F"] <- "Woman"
df$Gender[df$Gender == "Female"] <- "Woman"
df$Gender[df$Gender == "M & F"] <- "Man and Woman"
df$Gender[df$Gender == "Male & Female"] <- "Man and Woman"
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-03-13 01:00:27

有一种方法,用dplyr::case_when()

代码语言:javascript
复制
df$Gender <- dplyr::case_when(
  df$Gender %in% c("M", "Male") ~ "Man", 
  df$Gender %in% c("F", "Female") ~ "Woman",
  df$Gender %in% c("M & F", "Male & Female") ~ "Man and Woman",
  TRUE ~ NA_character_)

或者,如果您想使用典型的dplyr::/magrittr::管道链方法:

代码语言:javascript
复制
df <- df %>% mutate(Gender = case_when(
  Gender %in% c("M", "Male") ~ "Man", 
  Gender %in% c("F", "Female") ~ "Woman",
  Gender %in% c("M & F", "Male & Female") ~ "Man and Woman",
  TRUE ~ NA_character_))

最后,一个提示:当有许多唯一的值需要分组时,使用case_when() (或嵌套的ifelse(),或子设置的赋值,等等)。可能会变得很乏味。避免这种痛苦的一种方法是使用命名向量来替换每个值,使用字典样式的“查找表”(非正式术语--参见关于“关联数组”的wiki中的一些背景)。根据我的经验,这通常是最干净的:

代码语言:javascript
复制
# the unique values 
gender_values <- c("M","Man","Male","F","Woman","Female","MF","male-female")

# associate unique values with our new labels: "m", "f", and "b"
gender_lkup <- setNames(c("m","m","m","f","f","f","b","b"), gender_values)

# suppose this is a column of a df 
raw_column <- sample(gender_values, 10, replace=TRUE)

# create a clean one with `gender_lkup` 
clean_column <- gender_lkup[raw_column]

# inspect the two vectors side-by-side
data.frame(original=raw_column, cleaned=clean_column)
票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49246678

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档