目标
我正在尝试使用来自不同变量的值,并根据特定的标准,在R中创建一个分类变量(例如,字符串)。
问题
这似乎并没有真正对数据进行重新编码。我正在转换数据,但我不确定是哪种方式。
数据描述
我有一个以国家/月为分析单位的结构化数据框架。其中一个变量是governance,并且是连续的。它的范围从0.750到4.333。
采取的步骤
我正在尝试创建一个分类变量,在该变量中,我为4个不同的广泛治理组创建标签。
这是我尝试过的:
syndromes$syndrome_cat <- NA
syndromes$syndrome_cat[syndromes$governance <= 1.645] <- "Category 1"
syndromes$syndrome_cat[syndromes$governance >= 1.646 & syndromes$governance <= 2.541] <- "Category 2"
syndromes$syndrome_cat[syndromes$governance >= 2.542 & syndromes$governance <= 3.437] <- "Category 3"
syndromes$syndrome_cat[syndromes$governance >= 3.438] <- "Category 3"不幸的是,这不会导致列出不同的值,而是导致以下结果:
summary(variable)
Length Class Mode
14256 character character当我检查数据时,我看到了以下内容:
head(syndromes$governance)
[1] NA NA NA NA NA NA我做错了什么?
提前谢谢你!
发布于 2017-02-08 03:43:10
只要使用这个(就像@Rich Scriven还建议的那样),你也可以通过包括/排除间隔的左侧/右侧来更改cut的默认行为:
syndromes$syndrome_cat <- cut(syndromes$governance, breaks=c(-Inf,1.645, 2.541, 3.437,Inf),
labels=paste('Category', 1:4))发布于 2017-02-08 03:37:52
使用dplyr
mydf %>%
mutate(group = case_when(.$governance < 1.646 ~ 'Cat1',
between(.$governance, 1.646, 2.541) ~ 'Cat2',
between(.$governance, 2.542, 3.437) ~ 'Cat3',
.$governance > 3.438 ~ 'Cat4'))https://stackoverflow.com/questions/42098252
复制相似问题