首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Scikit学习丢失的数据-分类值

Scikit学习丢失的数据-分类值
EN

Data Science用户
提问于 2016-07-15 10:43:58
回答 3查看 3.6K关注 0票数 4

我有一个包含分类特征的数据集,它有4个标签和4个特征。(这是一个元分类器,因此基分类器的输出作为这个分类器的输入)

代码语言:javascript
复制
Label  Feat1 Feat2 Feat3 Feat4
 1      1     1      2     2
 2      3     1      2     2 
 3      4     3      3     1     
 4      4     1      2     4

我正在使用scikit学习,并且正在考虑使用朴素的贝叶斯或决策树。分类器需要能够处理缺少的特性,我在scikit learn的页面上看到,决策树不支持缺失的值。

我正在寻找的是关于如何在使用scikit学习时处理丢失的分类值的建议。此外,如有任何与学术论文有关的链接,将不胜感激。

EN

回答 3

Data Science用户

发布于 2016-07-15 14:27:02

在我看来,最好是处理丢失的数据,而不是依赖分类器。

处理这一问题的方法有很多:

  • 丢失观测
  • 删除该行中所有单元格为NA的行。
  • 用任意一个随机标签填写丢失的数据。
  • 使用缺失属性的最大频率填充标签

PS:我建议使用python熊猫库来进行数据清理。

票数 0
EN

Data Science用户

发布于 2016-08-14 18:09:38

在实际构建模型并在其上应用一些算法之前,执行数据清理始终是一个很好的实践。为了像处理丢失的值一样进行数据清理,“熊猫”库是首选。这里是链接的最新版本“熊猫”,和的“工作与失踪的价值”参考大熊猫。

票数 0
EN

Data Science用户

发布于 2017-05-10 14:04:57

我不会用中位数填充缺失的分类值,而是使用这种模式。这样做,即使您的模式是字符串,也肯定会填充现有的模式。正如Ricardo Cruz所说,根据缺失值背后的过程,您还可以为缺失的值添加一个新的模式。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/12797

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档