使用sklearn SimpleImputer策略常量和使用fillna(值)有什么不同?例如:SimpleImputer(missing_values=np.nan, strategy='constant', fill_value = 0) vs df.fillna(0)即使对于策略= mean,我们也可以只使用df.fillna(df.mean)。使用simpleImputer,我们仍然需要fit_transform数据帧和更多的行。fillna是简短的代码。当我们需要使用simpleImputer而不是fillna时,会出现什么情况?simpleImputer更快吗?
发布于 2021-04-15 18:01:24
我认为,当你试图部署一个模型时,使用sklearn在数据集上建立一个转换管道会更干净。您甚至可以在训练或推断之前,将数据集上的所有转换添加到一个很好的管道包装器中,如sklearn.pipeline.Pipeline对象。如果使用sklearn实现,则以后更容易集成和调试。
发布于 2021-04-15 18:54:58
我认为:两者都是用于填充缺失值的。如果项目中没有使用pandas,那么SimpleImputer是一个很好的选择,因为它是一个内置的sklearn特性。
most-frequentdf.fillna()和median,可用于复杂的scenarios.https://stackoverflow.com/questions/66683655
复制相似问题