首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于检测异常值的标准化或标准化?

用于检测异常值的标准化或标准化?
EN

Stack Overflow用户
提问于 2019-09-03 23:00:13
回答 1查看 218关注 0票数 1

什么时候使用归一化的最小最大缩放,什么时候使用标准化,即使用z分数进行数据预处理?

我知道归一化将特征的范围降低到0到1,z得分降低到-3到3,但我不确定何时使用两种技术中的一种来检测数据中的异常值?

EN

回答 1

Stack Overflow用户

发布于 2019-09-04 15:50:32

让我们简要地就条款达成一致:

  • z-score告诉我们一个样本的给定元素偏离平均值的标准差有多少。

  • min-max scaling是在间隔0,1范围内重新缩放测量范围的方法。

根据这些定义,如果您的数据遵循长尾分布,则z-score通常跨越的区间远大于-3,3。另一方面,简单的标准化确实限制了可能结果的范围,但不会帮助您找到离群值,因为它只是限制了数据。

对于异常值检测,您需要的是阈值,高于或低于该阈值,您认为数据点是异常值。许多编程语言都提供了Violin plotsBox plots,它们很好地显示了数据分布。绘图背后的方法实现了一个常见的阈值选择:

盒子图的

长方体和胡须绘制四分位数,而长方体内的带区始终是第二个四分位数(中位数)。但胡须的末端可以表示几个可能的可选值,其中包括:

  • 所有数据的最小和最大值...
  • data
  • 第9个百分位数、第91个percentile
  • the第2个百分位数和第98个百分位数的平均值上下一个标准差。

箱形图外的所有数据点都被绘制为点,并被视为异常值。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57774301

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档