我使用给定这里的聚类技术对大型数据集进行聚类,这在Mahout示例中给出。然而,当我可视化特定的集群时,我得到了下面的图。

我真的很难理解这意味着什么,我有几个问题。
发布于 2011-11-25 22:00:14
K-均值并不是最先进的聚类技术.圆圈作为一种可视化技术是有误导性的,它实际上是将数据空间划分为Voronoi单元(在Wikipedia上查找)。它也更喜欢类似规模的集群。
k。k -表示无法确定集群的数量,但如果您使用多个k值运行,则可以测试哪一个结果最适合数据集。https://stackoverflow.com/questions/8272184
复制相似问题