文章/答案/技术大牛

发布

社区首页 >问答首页 >如何比较k均值和层次聚类结果

问如何比较k均值和层次聚类结果
EN

Data Science用户

提问于 2020-12-12 12:40:29

回答 1查看 1.3K关注 0票数 0

我使用两种类型的聚类算法，我采用分层聚类，K-均值聚类使用python库。

现在的结果有点不同，那么我如何比较结果和使用哪种算法呢？因为我想为一组未标记的数据写一个结论。

使用多个算法并在它们之间进行比较有什么好处？

clustering

k-means

unsupervised-learning

回答 1

Data Science用户

回答已采纳

发布于 2020-12-28 04:45:26

一般来说，即使使用k-意味着不止一次就会产生稍微不同的星团(如果S不设置随机种子的话)。

理想情况下，集群的配置文件和数据点在其中的分布将是相似的。如果是这样的话，那么你选择哪一个并不重要。如果不是那样的话，我建议你仔细检查是什么导致了任何重大的差异。

如果您真的想选择，那么：

您可以使用一个度量，如距离内的总或轮廓(例如。选择具有最小距离或最大平均轮廓的聚类解决方案)，
您可以使用自己的判断来选择更有商业意义的集群解决方案。

正如前面提到的，理想情况下，度量标准(如距离内的总量或轮廓)不应该有太大的不同。因此，这一切归结为使用第二个标准。

至于使用多种算法是否有好处的问题，

如果您指的是k均值和分层聚类，您可以首先执行分层聚类，然后使用它来决定集群的数量，然后执行k均值。这种情况通常发生在数据集太大而不能进行分层聚类的情况下，在这种情况下，第一步将在子集上执行。
通常，由于并不是所有的聚类算法都适合于每一种情况，所以使用多个聚类算法是很有用的。例如，k均值和分层聚类在检测具有球形/球形状的聚类方面很好。在更复杂的形状数据上，它们的表现会很差。DBSCAN不存在的问题(尽管DBSCAN还有其他缺点，请参阅维基百科讨论)

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/86596

复制

相似问题

问如何比较k均值和层次聚类结果
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何比较k均值和层次聚类结果EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何比较k均值和层次聚类结果
EN