下面是一些时间序列数据的直方图。我试着找出数据中的异常。我想尝试的第一个基本方法是:如果数据服从正态分布,那么任何高于或低于3个标准差的数据都将被视为异常值。直方图看起来并不真的像钟形曲线,或者可能是我解释错了?我还做了一些正态性检验,如Shapiro Wilk检验,D‘’Agostino检验和Pearson‘s Test & Anderson-Darling检验,根据所有这些检验,我的数据都是不正常的。尽管如此,我还是想应用3个标准差概念(Z分数),并检查我是否能够识别异常。所以,我这样做了,下面是结果。看起来,似乎异常被正确识别了。那么,我对直方图的理解不正确吗?


发布于 2019-08-30 04:24:20
实际上,如果直方图看起来像高斯分布,那么应用3标准差概念是有意义的。但是,这不是必需的条件。3标准差概念仅依赖于均值和标准差。在我看来,这更多的是一个判断的问题。
在您的案例中,应用此方法会产生一致的结果,因为您的度量是围绕平均值(对于主模式)进行分组的。
https://stackoverflow.com/questions/57716545
复制相似问题