我已经阅读了一些参考资料,并了解了层次聚类的工作原理。然而,当我将其与k-means聚类进行比较时,在我看来,k-means确实构成了特定数量的聚类,而层次分析则向我展示了如何对样本进行聚类。我的意思是,在分层聚类中,我没有获得特定数量的集群。我只得到了一个关于集群如何构成的方案,以及样本之间的部分关系。
因此,我无法理解在哪里可以使用这种聚类方法。
发布于 2018-04-24 16:11:12
层次聚类(HC)只是另一种基于距离的聚类方法,类似于k-means。集群的数量可以通过cutting the dendrogram represented by HC大致确定。对于所有聚类方法来说,确定数据集中的聚类数并不是一项容易的任务,这通常基于您的应用程序。对于研究人员来说,调整HC中的阈值可能更明确和直接,特别是对于非常大的数据集。我认为this question也是相关的。
发布于 2019-06-08 10:25:22
在k-means聚类中,k是一个超参数,您需要找到它才能将数据点划分为多个聚类,而在分层聚类(让我们采用一种类型的分层聚类,即凝聚聚类)中,首先将数据集中的所有点视为一个聚类,然后基于相似性度量合并两个聚类,并重复此过程,直到得到单个聚类。我将用一个例子来解释这一点。
因此,在分层聚类中,没有超参数,这取决于你的问题,如果你想要7个集群,那么在第二步停止如果你想要4个集群,那么在第三步停止,同样如此。
层次聚类的一个实际优势是可以使用树状图可视化结果。如果您事先不知道您要查找的集群数量(…通常是这种情况),您可以使用树状图来帮助您选择k,而不需要创建单独的聚类。Dendrogram还可以很好地洞察数据结构,帮助识别异常值等。层次聚类也是确定性的,而随机初始化的k-means可以在同一数据上运行多次时给出不同的结果。
希望这能有所帮助。
https://stackoverflow.com/questions/49996305
复制相似问题