我正在研究此数据集。Dataset缺少值。什么是最好的方法来计算缺失的值。此外,目标特性中也缺少一些值。到目前为止,我已经从数据集中删除了这些观测结果。
有多个相同ID的实例,其中一些变量不会改变,即年龄、体重、身高等,但是缺少一些值。我试图用相同ID的其他给定值来计算缺少的值。我如何用Python来解释它呢?提前谢谢。
发布于 2018-10-08 16:22:40
要处理丢失的数据,可以使用以下三个选项之一:
注意:当您用平均值替换缺失的值时,只使用训练集计算平均值。另外,存储该值并使用它来更改测试集中缺少的值。
在python中,您可以使用Imputer()类来填充缺少的值,如下所示:
from sklearn.preprocessing import Imputer
impute = Imputer(strategy="median")
impute.fit(df)此外,还可以使用以下方法检查每一列的计算中值:
imputer.statistics_https://datascience.stackexchange.com/questions/39327
复制相似问题