如果你有一个数据集,并且从上到下都修剪了2%,对于4%的总修剪,你将得到96%的分数。这是否意味着剩下的分数将从原始数据集的.02分位数到.98分位数不等?
如果这是不正确的,我如何修剪,以便只有数据从.02分位数到.98分位数?
我正在使用R和想要修剪这种方式的离群点。
发布于 2015-04-13 20:53:28
事实上,0.02个概率分位数,或第二个百分位数,是在2%以下的数据被找到的数值。
要获得第2和第98百分位数之间的数据,可以使用quantile函数:
# Random samples from a normal distribution
x <- rnorm(1000)
# Quantiles
q <- quantile(x, probs = c(2, 98)/100)
# Samples between quantiles
x2 <- x[x>q[1] & x<q[2]]编辑:关于异常值的清除,您可能需要检查this answer的注释,以回答类似的问题。要点是:简单地删除固定百分比的数据以消除异常值可能是错误的。
https://stackoverflow.com/questions/29614290
复制相似问题