文章/答案/技术大牛

发布

社区首页 >问答首页 >Scikit学习丢失的数据-分类值

问Scikit学习丢失的数据-分类值
EN

Data Science用户

提问于 2016-07-15 10:43:58

回答 3查看 3.6K关注 0票数 4

我有一个包含分类特征的数据集，它有4个标签和4个特征。(这是一个元分类器，因此基分类器的输出作为这个分类器的输入)

Label  Feat1 Feat2 Feat3 Feat4
 1      1     1      2     2
 2      3     1      2     2 
 3      4     3      3     1     
 4      4     1      2     4

我正在使用scikit学习，并且正在考虑使用朴素的贝叶斯或决策树。分类器需要能够处理缺少的特性，我在scikit learn的页面上看到，决策树不支持缺失的值。

我正在寻找的是关于如何在使用scikit学习时处理丢失的分类值的建议。此外，如有任何与学术论文有关的链接，将不胜感激。

categorical-data

multiclass-classification

missing-data

predictive-modeling

scikit-learn

回答 3

Data Science用户

发布于 2016-07-15 14:27:02

在我看来，最好是处理丢失的数据，而不是依赖分类器。

处理这一问题的方法有很多：

丢失观测
删除该行中所有单元格为NA的行。
用任意一个随机标签填写丢失的数据。
使用缺失属性的最大频率填充标签

PS:我建议使用python熊猫库来进行数据清理。

票数 0

Data Science用户

发布于 2016-08-14 18:09:38

在实际构建模型并在其上应用一些算法之前，执行数据清理始终是一个很好的实践。为了像处理丢失的值一样进行数据清理，“熊猫”库是首选。这里是链接的最新版本“熊猫”，和那的“工作与失踪的价值”参考大熊猫。

票数 0

Data Science用户

发布于 2017-05-10 14:04:57

我不会用中位数填充缺失的分类值，而是使用这种模式。这样做，即使您的模式是字符串，也肯定会填充现有的模式。正如Ricardo Cruz所说，根据缺失值背后的过程，您还可以为缺失的值添加一个新的模式。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/12797

复制

相似问题

问Scikit学习丢失的数据-分类值
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scikit学习丢失的数据-分类值EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scikit学习丢失的数据-分类值
EN