例如,如果我有一个功能"colour_codes“,里面有近5000种不同的颜色代码。样本/行数为1000万。那么我应该忽略"colour_codes“这个特性吗?
单个分类变量有大量的类别,但与行/样本数相比,类别的数量非常少(5,000/10,000 =0.0005或0.0 5%)。但是,该分类变量中的每个类别都可以有大量的样本(2000年)。
类别变量中的类别数与样本数的最小比率应该是完全忽略范畴变量的最小比率吗?
发布于 2022-01-25 11:20:14
我不认为会有如果n
https://datascience.stackexchange.com/questions/107442
复制相似问题