我正在研究mahout中的K-means算法,在调试时,我注意到在创建第一个集群时,它执行以下代码:
ClusteringPolicy policy = new KMeansClusteringPolicy(convergenceDelta);
ClusterClassifier prior = new ClusterClassifier(clusters, policy);
prior.writeToSeqFiles(priorClustersPath); 我在读这些课程的描述,但我不清楚.
我想知道这些聚类分类器和策略的含义是什么?它与层次聚类、质心聚类、分布聚类等有关吗?
因为我不知道在使用K-时使用这个聚类分类器和策略的好处或原因。
发布于 2014-03-26 10:02:23
该实现与k均值的其他变体以及类似的算法共享代码,如Can伦、预聚类和GMM。
这些类只对这些算法之间的差异进行编码。
Mahout不是一个研究k均值算法的好地方,实现起来相当混乱.也很慢。真的很慢。在大多数情况下,一个CPU的实现会在内存中的任何东西上彻底击败Mahout。甚至在一台机器的磁盘上。因为所有的地图-减少开销。
https://stackoverflow.com/questions/22629780
复制相似问题