首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >K-均值与Mahalanobis距离

K-均值与Mahalanobis距离
EN

Stack Overflow用户
提问于 2013-04-29 09:00:23
回答 2查看 8.4K关注 0票数 3

我想在K-均值算法中使用Mahalanobis距离,因为我有4个高度相关的变量(0.85)

在我看来,在这种情况下最好使用Mahalanobis距离。

问题是我不知道如何用K均值算法在R中实现它。

我认为我需要在聚类步骤之前“伪造”数据,但我不知道怎么做。

我尝试了经典的kmeans,在标准化数据上使用了欧几里得距离,但是正如我所说的,有太多的相关性。

fit <- kmeans(mydata.standardize,4)

我还试图找到一个距离参数,但我认为kmeans()函数中不存在这个参数。

期望的结果是将K-均值算法与Mahalanobis距离相结合.

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-04-29 10:05:14

您可以在运行算法之前重新计算数据,使用方差矩阵的Cholesky分解:转换后的欧几里德距离是之前的Mahalanobis距离。

代码语言:javascript
复制
# Sample data 
n <- 100
k <- 5
x <- matrix( rnorm(k*n), nr=n, nc=k )
x[,1:2] <- x[,1:2] %*% matrix( c(.9,1,1,.9), 2, 2 )
var(x)

# Rescale the data
C <- chol( var(x) )
y <- x %*% solve(C)
var(y) # The identity matrix

kmeans(y, 4)

但是,这假设所有的集群都具有与整个数据相同的形状和方向。如果不是这样的话,您可能需要查看那些显式允许椭圆集群的模型,例如,在mclust包中。

票数 13
EN

Stack Overflow用户

发布于 2019-01-19 11:47:18

您可以在BrianS.Everitt的第10页中看到“A R and S-PLUS到多元分析的伙伴”,这是Mahalanobis距离的公式。当样本协方差为单位矩阵时,欧氏距离是mahalanobis的一个特例。在“y”中,具有重标度数据的欧氏距离是mahalanobis。

代码语言:javascript
复制
# Rescale the data
C <- chol( var(x) )
y <- x %*% solve(C)
var(y) # The identity matrix
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16274788

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档