我有一个包含分类特征的数据集,它有4个标签和4个特征。(这是一个元分类器,因此基分类器的输出作为这个分类器的输入)
Label Feat1 Feat2 Feat3 Feat4
1 1 1 2 2
2 3 1 2 2
3 4 3 3 1
4 4 1 2 4我正在使用scikit学习,并且正在考虑使用朴素的贝叶斯或决策树。分类器需要能够处理缺少的特性,我在scikit learn的页面上看到,决策树不支持缺失的值。
我正在寻找的是关于如何在使用scikit学习时处理丢失的分类值的建议。此外,如有任何与学术论文有关的链接,将不胜感激。
发布于 2016-07-15 14:27:02
在我看来,最好是处理丢失的数据,而不是依赖分类器。
处理这一问题的方法有很多:
PS:我建议使用python熊猫库来进行数据清理。
发布于 2016-08-14 18:09:38
在实际构建模型并在其上应用一些算法之前,执行数据清理始终是一个很好的实践。为了像处理丢失的值一样进行数据清理,“熊猫”库是首选。这里是链接的最新版本“熊猫”,和那的“工作与失踪的价值”参考大熊猫。
发布于 2017-05-10 14:04:57
我不会用中位数填充缺失的分类值,而是使用这种模式。这样做,即使您的模式是字符串,也肯定会填充现有的模式。正如Ricardo Cruz所说,根据缺失值背后的过程,您还可以为缺失的值添加一个新的模式。
https://datascience.stackexchange.com/questions/12797
复制相似问题