我使用k-means算法对我的数据进行聚类。我有5000个样本……(我的每个样本都是关于一个客户的。为了分析客户价值,我将基于4个行为特征对它们进行聚类。)距离是使用欧几里德度量和皮尔逊相关性计算的。
我需要知道
我不知道欧几里德距离是计算距离的正确方法还是皮尔逊相关性?我正在使用轮廓来验证我的聚类。当我使用皮尔逊相关性时,轮廓值比我使用欧几里德度量时要多。这是否意味着皮尔逊相关性更适合于距离度量?
发布于 2014-08-04 15:51:38
k-means不支持任意距离。
它基于方差最小化,方差最小化对应于(平方)欧几里德距离。
有了Peason关联,它将会失败得很厉害。
有关k-means如何在Pearson中严重失败的示例,请参阅此答案:
https://stackoverflow.com/a/21335448/1060350
简介:the mean 不适用于Pearson,但k-means基于计算均值。使用PAM或类似的方法代替使用medoids。
https://stackoverflow.com/questions/25109382
复制相似问题