什么时候使用归一化的最小最大缩放,什么时候使用标准化,即使用z分数进行数据预处理?
我知道归一化将特征的范围降低到0到1,z得分降低到-3到3,但我不确定何时使用两种技术中的一种来检测数据中的异常值?
发布于 2019-09-04 15:50:32
让我们简要地就条款达成一致:
根据这些定义,如果您的数据遵循长尾分布,则z-score通常跨越的区间远大于-3,3。另一方面,简单的标准化确实限制了可能结果的范围,但不会帮助您找到离群值,因为它只是限制了数据。
对于异常值检测,您需要的是阈值,高于或低于该阈值,您认为数据点是异常值。许多编程语言都提供了Violin plots或Box plots,它们很好地显示了数据分布。绘图背后的方法实现了一个常见的阈值选择:
盒子图的
长方体和胡须绘制四分位数,而长方体内的带区始终是第二个四分位数(中位数)。但胡须的末端可以表示几个可能的可选值,其中包括:
箱形图外的所有数据点都被绘制为点,并被视为异常值。
https://stackoverflow.com/questions/57774301
复制相似问题