首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否有一种简单的方法来重新计算因子变量的水平,以便将低于给定频率的水平重新编码为“其他”。

是否有一种简单的方法来重新计算因子变量的水平,以便将低于给定频率的水平重新编码为“其他”。
EN

Stack Overflow用户
提问于 2022-03-31 13:20:34
回答 1查看 136关注 0票数 2

保持<- c(0.001,0.5,0.1)

df$a df$b df$c -基于低于第一阈值的电平频率

df$x df$y df$x -基于低于第二阈值的电平频率

df$ df$e df$f -基于低于第三个阈值的电平频率的f$f$f-

EN

回答 1

Stack Overflow用户

发布于 2022-04-01 15:24:44

有了安德烈亚斯的建议和进一步的阅读,我想出了下面的方法,效果很好。谢谢

代码语言:javascript
复制
agg_cats_thresholds <- c(0.01, 0.05, 0.005, 0.001)
agg_cats_thresholds <- as.data.frame(agg_cats_thresholds)

#create the lists of variables

factor_columns1 <- c("a", "b","c", "d", "e")
factor_columns2 <- c("f")
factor_columns3 <- c("g")
factor_columns4 <- c("h", "i", "j", "k")

# Use fct_lump_prop to reduce the levels of the various factor variables

churn.ml[factor_columns1] <- lapply(churn.ml[factor_columns1], 
                           fct_lump_prop, prop = agg_cats_thresholds[1,] 
,other_level = 'other')

churn.ml[factor_columns2] <- lapply(churn.ml[factor_columns2], 
                                fct_lump_prop, prop = 
agg_cats_thresholds[2,] ,other_level = 'other')

churn.ml[factor_columns3] <- lapply(churn.ml[factor_columns3], 
                                fct_lump_prop, prop = 
agg_cats_thresholds[3,] ,other_level = 'other')
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71693247

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档