首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >python中的数据预处理

python中的数据预处理
EN

Stack Overflow用户
提问于 2022-04-09 21:38:06
回答 1查看 73关注 0票数 0

我有一个数据集,我正在探索数据,在我的数据的一个特定列中,我有11个不同的类别属于该特定列,但是该列的数据分布如下:

代码语言:javascript
复制
Number of data points in class 1 : 87459 ( 60.074 %)
Number of data points in class 2 : 42278 ( 29.04 %)
Number of data points in class 3 : 14712 ( 10.105 %)
Number of data points in class 4 : 569 ( 0.391 %)
Number of data points in class 5 : 425 ( 0.292 %)
Number of data points in class 6 : 57 ( 0.039 %)
Number of data points in class 7 : 34 ( 0.023 %)
Number of data points in class 8 : 24 ( 0.016 %)
Number of data points in class 9 : 11 ( 0.008 %)
Number of data points in class 10 : 10 ( 0.007 %)
Number of data points in class 11 : 7 ( 0.005 %) 

请注意,从第3班到第11班,数据的百分比有了很大的下降。

我的问题是,我想对这些分类数据执行编码,是应该考虑该特定列中的所有类别,不管数据的表示程度有多低,还是简单地考虑前3个类,而将其余的类排除在该列之外。

提前谢谢你!

EN

回答 1

Stack Overflow用户

发布于 2022-04-10 01:50:20

您可以试着将前3项考虑为3种不同的类别,其余的作为一个组合类别来考虑,看看您的模型是如何执行的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71812085

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档