简言之,我进行了一项满意度调查,要求调查对象以1至7的满意度来回答问题。
下面是数据集中两个变量之间的散射图(抖动)的一个示例(我正在研究R):

https://drive.google.com/uc?export=download&id=0Bx2Sns2vaI9ycm1tV2pNSWUxQXc
因此,我正在调查的数据集是由序号数据构成的,我想对这些数据进行异常值分析。
对于这类数据,您有什么建议作为最佳的离群点分析方法,以及如何在R上实现?
提前谢谢你,
氘
发布于 2014-03-20 21:26:23
您的数据如下所示:
x = rep(1:7, c(3, 4,17, 21, 48, 118, 93))
y = c(
rep(1:7,c(1,2,0,0,0,0,0)),
rep(1:7,c(2,0,1,1,0,0,0)),
rep(1:7,c(10,3,2,1,0,0,1)),
rep(1:7,c(15,3,1,1,1,0,0)),
rep(1:7,c(20,10,2,10,3,2,1)),
rep(1:7,c(40,20,20,30,3,4,1)),
rep(1:7,c(50,25,10,5,3,0,0))
)情节:
library(car)
sp(x,y, jitter = list(x=0.8, y=0.8), smoother=F, reg.line = F)

如果您只想知道给定值是否是数据中的异常值(即单变量异常值分析),则可以使用:
library(outliers)
grubbs.test(x)或者简单地使用boxplot,它的值被绘制为异常值:
boxplot(x, plot=F)$out如果需要多元异常值,可以使用mvoutlier包(参见函数?chisq.plot和?pcout):
library(mvoutlier)
pcout(x=data.frame(x,y))https://stackoverflow.com/questions/22540327
复制相似问题