问缺少值的特征缩放数据
EN

Data Science用户

提问于 2016-02-21 20:45:40

回答 2查看 732关注 0票数 2

我有兴趣做一些特性缩放，试图从我的数据中找出一些东西(按结果显示，25/50/75分位数非常相似；某些变量比其他变量具有更多的“离群值”。然而，我的问题是，有很多缺失的数据。我想把这些NAs (它们是数字的)替换为-9999。我应该先缩放我的数据然后将-9999分配给NAs还是先分配然后缩放？

发布于 2016-02-22 01:42:39

好-9999可能或多或少取决于数据的可变性(is -9999是一个极端的异常值，或者是一个中等值，接近平均值/中位数>)。

很大程度上取决于你的数据。这样的值可能会使其倾斜很大，并且会对建模产生很大的影响，这取决于您所使用的技术。对于一门课，那是有偏见的吗？考虑对最优分割进行分类的决策树。他们会检测到一种偏见(例如，如果你的NA的90%是某一类别)，并将其分解为-9999值，以显示这种偏见。

还可以查看Pareto scaling，它强调数据中的小到中等变化。可能是沿着你要找的路线。

票数 1

发布于 2016-02-22 15:44:49

如果您不能使用-inf、NaN或仅删除数据，则应该尝试一些比使用固定值更好的方法。例如，-1000*min(数据)

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/10343

复制

相似问题

问缺少值的特征缩放数据EN