文章/答案/技术大牛

发布

社区首页 >问答首页 >探索性数据分析

问探索性数据分析
EN

Data Science用户

提问于 2018-10-08 02:30:16

回答 1查看 361关注 0票数 0

我正在研究此数据集。Dataset缺少值。什么是最好的方法来计算缺失的值。此外，目标特性中也缺少一些值。到目前为止，我已经从数据集中删除了这些观测结果。

有多个相同ID的实例，其中一些变量不会改变，即年龄、体重、身高等，但是缺少一些值。我试图用相同ID的其他给定值来计算缺少的值。我如何用Python来解释它呢？提前谢谢。

predictive-modeling

data-science-model

data-analysis

machine-learning

data-mining

回答 1

Data Science用户

发布于 2018-10-08 16:22:40

要处理丢失的数据，可以使用以下三个选项之一：

如果没有很多缺少值的实例，则只需删除缺少值的实例即可。
如果您有许多功能，而且损失一些信息是负担得起的，请删除整个功能中缺少的值。
最好的方法是用一些值(平均值，中值)来代替丢失的值。您可以为该特性计算其余培训示例的平均值，并用平均值填充所有缺失的值。当平均值保持在数据的分布中时，这是很好的结果。

注意:当您用平均值替换缺失的值时，只使用训练集计算平均值。另外，存储该值并使用它来更改测试集中缺少的值。

在python中，您可以使用Imputer()类来填充缺少的值，如下所示：

from sklearn.preprocessing import Imputer
impute = Imputer(strategy="median")
impute.fit(df)

此外，还可以使用以下方法检查每一列的计算中值：

imputer.statistics_

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/39327

复制

相似问题

问探索性数据分析
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问探索性数据分析EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问探索性数据分析
EN