首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >缺少值的特征缩放数据

缺少值的特征缩放数据
EN

Data Science用户
提问于 2016-02-21 20:45:40
回答 2查看 732关注 0票数 2

我有兴趣做一些特性缩放,试图从我的数据中找出一些东西(按结果显示,25/50/75分位数非常相似;某些变量比其他变量具有更多的“离群值”。然而,我的问题是,有很多缺失的数据。我想把这些NAs (它们是数字的)替换为-9999。我应该先缩放我的数据然后将-9999分配给NAs还是先分配然后缩放?

EN

回答 2

Data Science用户

发布于 2016-02-22 01:42:39

好-9999可能或多或少取决于数据的可变性(is -9999是一个极端的异常值,或者是一个中等值,接近平均值/中位数>)。

很大程度上取决于你的数据。这样的值可能会使其倾斜很大,并且会对建模产生很大的影响,这取决于您所使用的技术。对于一门课,那是有偏见的吗?考虑对最优分割进行分类的决策树。他们会检测到一种偏见(例如,如果你的NA的90%是某一类别),并将其分解为-9999值,以显示这种偏见。

还可以查看Pareto scaling,它强调数据中的小到中等变化。可能是沿着你要找的路线。

票数 1
EN

Data Science用户

发布于 2016-02-22 15:44:49

如果您不能使用-inf、NaN或仅删除数据,则应该尝试一些比使用固定值更好的方法。例如,-1000*min(数据)

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/10343

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档