文章/答案/技术大牛

发布

社区首页 >问答首页 >K-均值与Mahalanobis距离

问K-均值与Mahalanobis距离
EN

Stack Overflow用户

提问于 2013-04-29 09:00:23

回答 2查看 8.4K关注 0票数 3

我想在K-均值算法中使用Mahalanobis距离，因为我有4个高度相关的变量(0.85)

在我看来，在这种情况下最好使用Mahalanobis距离。

问题是我不知道如何用K均值算法在R中实现它。

我认为我需要在聚类步骤之前“伪造”数据，但我不知道怎么做。

我尝试了经典的kmeans，在标准化数据上使用了欧几里得距离，但是正如我所说的，有太多的相关性。

fit <- kmeans(mydata.standardize，4)

我还试图找到一个距离参数，但我认为kmeans()函数中不存在这个参数。

期望的结果是将K-均值算法与Mahalanobis距离相结合.

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-04-29 10:05:14

您可以在运行算法之前重新计算数据，使用方差矩阵的Cholesky分解:转换后的欧几里德距离是之前的Mahalanobis距离。

# Sample data 
n <- 100
k <- 5
x <- matrix( rnorm(k*n), nr=n, nc=k )
x[,1:2] <- x[,1:2] %*% matrix( c(.9,1,1,.9), 2, 2 )
var(x)

# Rescale the data
C <- chol( var(x) )
y <- x %*% solve(C)
var(y) # The identity matrix

kmeans(y, 4)

但是，这假设所有的集群都具有与整个数据相同的形状和方向。如果不是这样的话，您可能需要查看那些显式允许椭圆集群的模型，例如，在mclust包中。

票数 13

Stack Overflow用户

发布于 2019-01-19 11:47:18

您可以在BrianS.Everitt的第10页中看到“A R and S-PLUS到多元分析的伙伴”，这是Mahalanobis距离的公式。当样本协方差为单位矩阵时，欧氏距离是mahalanobis的一个特例。在“y”中，具有重标度数据的欧氏距离是mahalanobis。

# Rescale the data
C <- chol( var(x) )
y <- x %*% solve(C)
var(y) # The identity matrix

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16274788

复制

相似问题

问K-均值与Mahalanobis距离
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问K-均值与Mahalanobis距离EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问K-均值与Mahalanobis距离
EN