首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >类别的最小百分比应该出现在分类变量中,以便完全忽略该变量

类别的最小百分比应该出现在分类变量中,以便完全忽略该变量
EN

Data Science用户
提问于 2022-01-25 09:01:48
回答 1查看 43关注 0票数 0

例如,如果我有一个功能"colour_codes“,里面有近5000种不同的颜色代码。样本/行数为1000万。那么我应该忽略"colour_codes“这个特性吗?

单个分类变量有大量的类别,但与行/样本数相比,类别的数量非常少(5,000/10,000 =0.0005或0.0 5%)。但是,该分类变量中的每个类别都可以有大量的样本(2000年)。

类别变量中的类别数与样本数的最小比率应该是完全忽略范畴变量的最小比率吗?

EN

回答 1

Data Science用户

发布于 2022-01-25 11:20:14

我不认为会有如果n

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/107442

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档