文章/答案/技术大牛

发布

社区首页 >问答首页 >选择k均值聚类模型的适当相似性度量

问选择k均值聚类模型的适当相似性度量
EN

Stack Overflow用户

提问于 2014-08-04 05:40:14

回答 1查看 633关注 0票数 0

我使用k-means算法对我的数据进行聚类。我有5000个样本……(我的每个样本都是关于一个客户的。为了分析客户价值，我将基于4个行为特征对它们进行聚类。)距离是使用欧几里德度量和皮尔逊相关性计算的。

我需要知道

我不知道欧几里德距离是计算距离的正确方法还是皮尔逊相关性？我正在使用轮廓来验证我的聚类。当我使用皮尔逊相关性时，轮廓值比我使用欧几里德度量时要多。这是否意味着皮尔逊相关性更适合于距离度量？

cluster-analysis

distance

k-means

unsupervised-learning

回答 1

Stack Overflow用户

发布于 2014-08-04 15:51:38

k-means不支持任意距离。

它基于方差最小化，方差最小化对应于(平方)欧几里德距离。

有了Peason关联，它将会失败得很厉害。

有关k-means如何在Pearson中严重失败的示例，请参阅此答案：

https://stackoverflow.com/a/21335448/1060350

简介:the mean 不适用于Pearson，但k-means基于计算均值。使用PAM或类似的方法代替使用medoids。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25109382

复制

相似问题

问选择k均值聚类模型的适当相似性度量
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问选择k均值聚类模型的适当相似性度量EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问选择k均值聚类模型的适当相似性度量
EN