我想在K-均值算法中使用Mahalanobis距离,因为我有4个高度相关的变量(0.85)
在我看来,在这种情况下最好使用Mahalanobis距离。
问题是我不知道如何用K均值算法在R中实现它。
我认为我需要在聚类步骤之前“伪造”数据,但我不知道怎么做。
我尝试了经典的kmeans,在标准化数据上使用了欧几里得距离,但是正如我所说的,有太多的相关性。
fit <- kmeans(mydata.standardize,4)
我还试图找到一个距离参数,但我认为kmeans()函数中不存在这个参数。
期望的结果是将K-均值算法与Mahalanobis距离相结合.
发布于 2013-04-29 10:05:14
您可以在运行算法之前重新计算数据,使用方差矩阵的Cholesky分解:转换后的欧几里德距离是之前的Mahalanobis距离。
# Sample data
n <- 100
k <- 5
x <- matrix( rnorm(k*n), nr=n, nc=k )
x[,1:2] <- x[,1:2] %*% matrix( c(.9,1,1,.9), 2, 2 )
var(x)
# Rescale the data
C <- chol( var(x) )
y <- x %*% solve(C)
var(y) # The identity matrix
kmeans(y, 4)但是,这假设所有的集群都具有与整个数据相同的形状和方向。如果不是这样的话,您可能需要查看那些显式允许椭圆集群的模型,例如,在mclust包中。
发布于 2019-01-19 11:47:18
您可以在BrianS.Everitt的第10页中看到“A R and S-PLUS到多元分析的伙伴”,这是Mahalanobis距离的公式。当样本协方差为单位矩阵时,欧氏距离是mahalanobis的一个特例。在“y”中,具有重标度数据的欧氏距离是mahalanobis。
# Rescale the data
C <- chol( var(x) )
y <- x %*% solve(C)
var(y) # The identity matrixhttps://stackoverflow.com/questions/16274788
复制相似问题