首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何比较k均值和层次聚类结果

如何比较k均值和层次聚类结果
EN

Data Science用户
提问于 2020-12-12 12:40:29
回答 1查看 1.3K关注 0票数 0

我使用两种类型的聚类算法,我采用分层聚类,K-均值聚类使用python库。

现在的结果有点不同,那么我如何比较结果和使用哪种算法呢?因为我想为一组未标记的数据写一个结论。

使用多个算法并在它们之间进行比较有什么好处?

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-12-28 04:45:26

一般来说,即使使用k-意味着不止一次就会产生稍微不同的星团(如果S不设置随机种子的话)。

理想情况下,集群的配置文件和数据点在其中的分布将是相似的。如果是这样的话,那么你选择哪一个并不重要。如果不是那样的话,我建议你仔细检查是什么导致了任何重大的差异。

如果您真的想选择,那么:

  • 您可以使用一个度量,如距离内的总或轮廓(例如。选择具有最小距离或最大平均轮廓的聚类解决方案),
  • 您可以使用自己的判断来选择更有商业意义的集群解决方案。

正如前面提到的,理想情况下,度量标准(如距离内的总量或轮廓)不应该有太大的不同。因此,这一切归结为使用第二个标准。

至于使用多种算法是否有好处的问题,

  • 如果您指的是k均值和分层聚类,您可以首先执行分层聚类,然后使用它来决定集群的数量,然后执行k均值。这种情况通常发生在数据集太大而不能进行分层聚类的情况下,在这种情况下,第一步将在子集上执行。
  • 通常,由于并不是所有的聚类算法都适合于每一种情况,所以使用多个聚类算法是很有用的。例如,k均值和分层聚类在检测具有球形/球形状的聚类方面很好。在更复杂的形状数据上,它们的表现会很差。DBSCAN不存在的问题(尽管DBSCAN还有其他缺点,请参阅维基百科讨论)
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/86596

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档