文章/答案/技术大牛

发布

社区首页 >问答首页 >使用字符串重新编码变量时出现问题

问使用字符串重新编码变量时出现问题
EN

Stack Overflow用户

提问于 2017-02-08 03:25:12

回答 2查看 48关注 0票数 1

目标

我正在尝试使用来自不同变量的值，并根据特定的标准，在R中创建一个分类变量(例如，字符串)。

问题

这似乎并没有真正对数据进行重新编码。我正在转换数据，但我不确定是哪种方式。

数据描述

我有一个以国家/月为分析单位的结构化数据框架。其中一个变量是governance，并且是连续的。它的范围从0.750到4.333。

采取的步骤

我正在尝试创建一个分类变量，在该变量中，我为4个不同的广泛治理组创建标签。

这是我尝试过的：

syndromes$syndrome_cat <- NA
syndromes$syndrome_cat[syndromes$governance <= 1.645] <- "Category 1"
syndromes$syndrome_cat[syndromes$governance >= 1.646 & syndromes$governance <= 2.541] <- "Category 2"
syndromes$syndrome_cat[syndromes$governance >= 2.542 & syndromes$governance <= 3.437] <- "Category 3"
syndromes$syndrome_cat[syndromes$governance >= 3.438] <- "Category 3"

不幸的是，这不会导致列出不同的值，而是导致以下结果：

summary(variable)
Length     Class       Mode 
14256      character   character

当我检查数据时，我看到了以下内容：

head(syndromes$governance)
[1] NA NA NA NA NA NA

我做错了什么？

提前谢谢你！

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-02-08 03:43:10

只要使用这个(就像@Rich Scriven还建议的那样)，你也可以通过包括/排除间隔的左侧/右侧来更改cut的默认行为：

syndromes$syndrome_cat <- cut(syndromes$governance, breaks=c(-Inf,1.645, 2.541, 3.437,Inf), 
                                                    labels=paste('Category', 1:4))

票数 2

Stack Overflow用户

发布于 2017-02-08 03:37:52

使用dplyr

mydf %>% 
    mutate(group = case_when(.$governance < 1.646 ~ 'Cat1',
                       between(.$governance, 1.646, 2.541) ~ 'Cat2',
                       between(.$governance, 2.542, 3.437) ~ 'Cat3',
                       .$governance > 3.438 ~ 'Cat4'))

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42098252

复制

相似问题

问使用字符串重新编码变量时出现问题
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用字符串重新编码变量时出现问题EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用字符串重新编码变量时出现问题
EN