我想要进行聚类,但我不知道前面有多少簇。但我希望每个集群至少有40个数据点。如何将此应用于sklearn.agglomerative集群?我应该用树状图并以某种方式剪掉它吗?我不知道如何把树状图和它联系起来,然后把它切掉。任何帮助都将不胜感激!
发布于 2017-07-08 07:31:35
在层次聚类中,最小聚类大小一般不能满足。相反,您必须期望许多集群只有一个点。
ELKI有一些非常有趣的技术来切割树状图。检查clustering.hierarchical.extraction (大约)包。如果我没记错的话,有些允许您设置最小大小(但是会有一个“噪音”集群和所有剩馀的)。
发布于 2017-07-08 12:48:12
如果你不知道集群的数量,我鼓励你看看那些基于密度的算法:均值偏移,DBSCAN,光学。它们不假定簇数,能够找到随机形状的簇。
https://datascience.stackexchange.com/questions/20248
复制相似问题