问类别的最小百分比应该出现在分类变量中，以便完全忽略该变量
EN

Data Science用户

提问于 2022-01-25 09:01:48

回答 1查看 43关注 0票数 0

例如，如果我有一个功能"colour_codes“，里面有近5000种不同的颜色代码。样本/行数为1000万。那么我应该忽略"colour_codes“这个特性吗？

单个分类变量有大量的类别，但与行/样本数相比，类别的数量非常少(5,000/10,000 =0.0005或0.0 5%)。但是，该分类变量中的每个类别都可以有大量的样本(2000年)。

类别变量中的类别数与样本数的最小比率应该是完全忽略范畴变量的最小比率吗？

发布于 2022-01-25 11:20:14

我不认为会有如果n

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/107442

复制

相似问题

问类别的最小百分比应该出现在分类变量中，以便完全忽略该变量EN