首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在data.frame中将月份“因子”分类为时间段

在data.frame中将月份“因子”分类为时间段
EN

Stack Overflow用户
提问于 2016-12-03 10:21:54
回答 2查看 192关注 0票数 1

最新情况(初步问题如下)

多亏了@akrun@ulfelder,我才意识到我最初的例子不够复杂,因为我只有一年时间。涵盖几年的数据可能更现实,对其他人也更有用。

相反,我的数据是,

代码语言:javascript
复制
df <- structure(list(yr_month = structure(1:7, .Label = c("2014-1", "2014-2", 
"2014-3", "2015-4", "2016-4", "2016-6", "2017-7"), class = "factor"), 
    a = c(4.14, 2.83, 3.71, 4.15, 4.63, 4.91, 5.31), b = c(4.25, 
    3.5, 3.5, 3.5, 3.5, 3.5, 5)), .Names = c("yrQ", "a", "b"
), row.names = c(NA, 7L), class = "data.frame")
df
#      yrQ    a    b
# 1 2014-1 4.14 4.25
# 2 2014-2 2.83 3.50
# 3 2014-3 3.71 3.50
# 4 2015-4 4.15 3.50
# 5 2016-4 4.63 3.50
# 6 2016-6 4.91 3.50
# 7 2017-7 5.31 5.00

我想在2014年3月之前,2014-3年,2014-3年和2016-4年之间,再到2016-4年之后,对一个类别进行分类。所以我得到了这样的东西,

代码语言:javascript
复制
#   yr.cat    yrQ    a    b
# 1    "A" 2014-1 4.14 4.25
# 2    "A" 2014-2 2.83 3.50
# 3    "B" 2014-3 3.71 3.50
# 4    "B" 2015-4 4.15 3.50
# 5    "B" 2016-4 4.63 3.50
# 6    "C" 2016-6 4.91 3.50
# 7    "C" 2017-7 5.31 5.00

初始问题

假设我有这样的数据集,

代码语言:javascript
复制
df <- structure(list(yr_month = structure(1:7, .Label = c("2016-1", "2016-2", 
"2016-3", "2016-4", "2016-5", "2016-6", "2016-7"), class = "factor"), 
    a = c(4.14, 2.83, 3.71, 4.15, 4.63, 4.91, 5.31), b = c(4.25, 
    3.5, 3.5, 3.5, 3.5, 3.5, 5)), .Names = c("yrQ", "a", "b"
), row.names = c(NA, 7L), class = "data.frame")
df
#      yrQ    a    b
# 1 2016-1 4.14 4.25
# 2 2016-2 2.83 3.50
# 3 2016-3 3.71 3.50
# 4 2016-4 4.15 3.50
# 5 2016-5 4.63 3.50
# 6 2016-6 4.91 3.50
# 7 2016-7 5.31 5.00

现在,我可以使用ifelse()a数值变量进行分类。像这样,

代码语言:javascript
复制
df$a.cat <- ifelse(df$a < 3.8, c("tiny"), ifelse(df$a < 4.8, c("medium"), c("huge")) )
df
#      yrQ    a    b  a.cat
# 1 2016-1 4.14 4.25 medium
# 2 2016-2 2.83 3.50   tiny
# 3 2016-3 3.71 3.50   tiny
# 4 2016-4 4.15 3.50 medium
# 5 2016-5 4.63 3.50 medium
# 6 2016-6 4.91 3.50   huge
# 7 2016-7 5.31 5.00   huge

但是,如果我想要设置一个表示某个时间段的变量,该怎么办。比如2016年3月之前,2016-32016-32016-5之间,2016-5之后。我意识到我可以将数据转换为ts,然后使用window()将其剪切起来,然后将其重新组合起来,但是是否有更明智的方法在yrQ上使用if there实现这样的功能呢?

就像我想说的那样,

代码语言:javascript
复制
  yr.cat    yrQ    a    b
1    "A" 2016-1 4.14 4.25
2    "A" 2016-2 2.83 3.50
3    "B" 2016-3 3.71 3.50
4    "B" 2016-4 4.15 3.50
5    "B" 2016-5 4.63 3.50
6    "C" 2016-6 4.91 3.50
7    "C" 2016-7 5.31 5.00
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-12-03 10:26:51

我们可以在从‘cut’中提取月份子字符串之后使用yrQ

代码语言:javascript
复制
df$yr.cat <- cut(as.numeric(sub(".*-", "", df$yrQ)), 
               breaks = c(-Inf,2, 5, Inf), labels = LETTERS[1:3])
df$yr.cat
#[1] A A B B B C C
#Levels: A B C

基于更新的示例

代码语言:javascript
复制
cut(as.numeric(sub("-", ".", df$yrQ)),
       breaks = c(-Inf, 2014.2, 2016.5, Inf), labels = LETTERS[1:3])
#[1] A A B B B C C
#Levels: A B C
票数 1
EN

Stack Overflow用户

发布于 2016-12-03 12:58:15

问题中提供的输入数据似乎不一致,指的是数据结构中不同点上与yrQyr_month相同的列。我们假设这个输入是相同的,只是我们用yrQ替换了.Names中的yr_month (这意味着年份/qtr,而不是年份/月),以保持与list()中显示的同名的一致性。

代码语言:javascript
复制
df <- structure(list(yr_month = structure(1:7, .Label = c("2014-1", "2014-2", 
"2014-3", "2015-4", "2016-4", "2016-6", "2017-7"), class = "factor"), 
    a = c(4.14, 2.83, 3.71, 4.15, 4.63, 4.91, 5.31), b = c(4.25, 
    3.5, 3.5, 3.5, 3.5, 3.5, 5)), .Names = c("yr_month", "a", "b"
), row.names = c(NA, 7L), class = "data.frame")

问题中的示例数据只有一个数字的月份,但是我们假设它需要工作,即使有一个1位数(Jan,Feb,…,Sep)和2位数(10月,11月,12月)的混合月份。

1)转换为"yearmon"类(如果需要使用此列进行其他操作,这也可能有所帮助),并对每个切点进行比较,并将它们相加,得到一个数字0、1或2,分别表示在前面、之间和之后。然后添加1并将其用作类别名称向量的下标(此处为LETTERS)。只要添加更多的比较项,就可以将其扩展到更多的类别。

代码语言:javascript
复制
library(zoo)

df$yr_month <- as.yearmon(df$yr_month) ##
transform(df, yr.cat = LETTERS[ (yr_month >= "2014-03") + (yr_month > "2016-04") + 1])

给予:

代码语言:javascript
复制
  yr_month    a    b yr.cat
1 Jan 2014 4.14 4.25      A
2 Feb 2014 2.83 3.50      A
3 Mar 2014 3.71 3.50      B
4 Apr 2015 4.15 3.50      B
5 Apr 2016 4.63 3.50      B
6 Jun 2016 4.91 3.50      C
7 Jul 2017 5.31 5.00      C

2)在没有任何包的情况下将(1)中标记为##的行更改为下面的代码行。在这里,我们将yr_month转换为"Date"类,然后删除其字符表示的日期部分。这将为月份留出2位数,以便将1和2位数的月份进行比较。(在(1) "yearmon"类中自动处理。)

代码语言:javascript
复制
df$yr_month <- sub("...$", "", as.Date(paste0(df$yr_month, -1)))

修改后的做了一些修改。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40946680

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档