首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >探索性数据分析

探索性数据分析
EN

Data Science用户
提问于 2018-10-08 02:30:16
回答 1查看 361关注 0票数 0

我正在研究此数据集。Dataset缺少值。什么是最好的方法来计算缺失的值。此外,目标特性中也缺少一些值。到目前为止,我已经从数据集中删除了这些观测结果。

有多个相同ID的实例,其中一些变量不会改变,即年龄、体重、身高等,但是缺少一些值。我试图用相同ID的其他给定值来计算缺少的值。我如何用Python来解释它呢?提前谢谢。

EN

回答 1

Data Science用户

发布于 2018-10-08 16:22:40

要处理丢失的数据,可以使用以下三个选项之一:

  • 如果没有很多缺少值的实例,则只需删除缺少值的实例即可。
  • 如果您有许多功能,而且损失一些信息是负担得起的,请删除整个功能中缺少的值。
  • 最好的方法是用一些值(平均值,中值)来代替丢失的值。您可以为该特性计算其余培训示例的平均值,并用平均值填充所有缺失的值。当平均值保持在数据的分布中时,这是很好的结果。

注意:当您用平均值替换缺失的值时,只使用训练集计算平均值。另外,存储该值并使用它来更改测试集中缺少的值。

在python中,您可以使用Imputer()类来填充缺少的值,如下所示:

代码语言:javascript
复制
from sklearn.preprocessing import Imputer
impute = Imputer(strategy="median")
impute.fit(df)

此外,还可以使用以下方法检查每一列的计算中值:

代码语言:javascript
复制
imputer.statistics_
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/39327

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档