我对集群和做一些关于集群tweet的小项目很陌生,我使用了TF,然后使用了层次化聚类。我对为分层聚类设置阈值感到困惑。它的价值应该是什么?如何决定它?
我使用python模块来实现。
发布于 2014-04-23 12:41:48
虽然有几种方法可以帮助终止分层集群(或者一般的集群),但是没有最好的通用方法来完成这一任务。这是因为没有任意数据的“正确”聚类。相反,“正确性”非常特定于领域和应用程序。
因此,当您可以尝试不同的方法(例如,肘或其他方法)时,它们又会有自己的参数,您必须“调优”才能获得您认为“正确”的聚类。这个视频可能会对你有所帮助(虽然它主要涉及k-均值,概念扩展到其他聚类方法)- https://www.youtube.com/watch?v=3JPGv0XC6AE。
发布于 2014-04-23 12:00:31
我假设您正在讨论从分层聚类算法中选择要提取的集群数量。有几种方法可以做到这一点,而且维基百科上有一篇很好的文章供参考:set。
关于实际例子,请看一下这个问题:Tutorial for scipy.cluster.hierarchy
https://stackoverflow.com/questions/23242706
复制相似问题