我正在使用K-Means和聚类处理WEKA。
通常,我在项目的数据集上检查不同的算法。
我不能决定我应该选择什么最佳SSE/集群比率。
从理论上讲,随着集群的增加,SSE会减少,但直到哪里呢?
发现了一些手指法则,K= (n/2)^0.5,有人能对此表示赞同吗?
发布于 2013-04-23 16:05:48
请注意,Weka没有太多的集群。它主要是一个分类工具。
平方和是一种以k均值为中心的度量。不要费心将此度量用于任何其他算法。这是过度拟合:这是k-means优化的度量,所以它当然会得到最好的结果(通过添加另一个集群,它将能够进一步改进这个度量,这并不令人惊讶)。
如果您想要评估集群的质量,最可靠(尽管也有问题)的方法是使用带标签的数据集。
https://stackoverflow.com/questions/16157674
复制相似问题