我有一个非常简单的问题,我目前正在努力解决。如果我有一个数据帧示例:
a <- c(1:5)
b <- c(1,3,5,9,11)
df1 <- data.frame(a,b)因此,使用dataframe df1的列'c‘应该是:猫,狗,狗,兔,兔。
在此之前,非常感谢您。
发布于 2012-12-03 05:54:36
dfrm$dc <- c("dog", "cat", "rabbit")[ findInterval(dfrm$b, c(1, 2.5, 5.5, Inf)) ]findInterval方法将比嵌套的ifelse策略快得多,我猜也比循环未嵌套的if语句的函数快得多。我们这些使用更大数据的人在选择低效算法时确实注意到了其中的差异。
这实际上并没有解决请求,但我并不总是认为R的新用户会知道解决问题的最具表现力或最有效的方法。"use IF“的请求听起来像是在努力翻译两个主要的宏观统计处理器SPSS和SAS的典型编码方法。R if控制结构通常不是对列进行重新编码的有效方法,因为它的第一个位置的参数将只针对第一个元素进行计算。它本身不处理列,而ifelse函数将处理列。这里可能已经使用了cut函数(使用适当的breaks和labels参数),尽管它将提供factor-value而不是字符值。选择findInterval方法是因为它能够返回多个级别(单个ifelse无法返回)。我认为链接或嵌套ifelse在大约2到3层嵌套后很快就会变得丑陋和令人困惑。
发布于 2012-12-03 03:27:35
df1 <-
transform(
df1 ,
c =
ifelse( b %in% 1:2 , 'cat' ,
ifelse( b %in% 3:5 , 'dog' , 'rabbit' ) ) )发布于 2012-12-03 03:32:16
虽然ifelse()很有用,但有时它并不能提供人们直观上期望的东西。所以,我喜欢把它写出来。
a <- c(1:5)
b <- c(1,3,5,9,11)
df1 <- data.frame(a,b)
species <- function(x) {
if(x == 1 | x == 2) y <- "cat"
if(x > 2 & x < 6) y <- "dog"
if(x > 6) y <- "rabbit"
return(y)
}
df1$c <- sapply(df1$b,species)https://stackoverflow.com/questions/13672781
复制相似问题