我有兴趣做一些特性缩放,试图从我的数据中找出一些东西(按结果显示,25/50/75分位数非常相似;某些变量比其他变量具有更多的“离群值”。然而,我的问题是,有很多缺失的数据。我想把这些NAs (它们是数字的)替换为-9999。我应该先缩放我的数据然后将-9999分配给NAs还是先分配然后缩放?
发布于 2016-02-22 01:42:39
好-9999可能或多或少取决于数据的可变性(is -9999是一个极端的异常值,或者是一个中等值,接近平均值/中位数>)。
很大程度上取决于你的数据。这样的值可能会使其倾斜很大,并且会对建模产生很大的影响,这取决于您所使用的技术。对于一门课,那是有偏见的吗?考虑对最优分割进行分类的决策树。他们会检测到一种偏见(例如,如果你的NA的90%是某一类别),并将其分解为-9999值,以显示这种偏见。
还可以查看Pareto scaling,它强调数据中的小到中等变化。可能是沿着你要找的路线。
发布于 2016-02-22 15:44:49
如果您不能使用-inf、NaN或仅删除数据,则应该尝试一些比使用固定值更好的方法。例如,-1000*min(数据)
https://datascience.stackexchange.com/questions/10343
复制相似问题