文章/答案/技术大牛

发布

社区首页 >问答首页 >基于聚类K的数据挖掘SSE

问基于聚类K的数据挖掘SSE
EN

Stack Overflow用户

提问于 2013-04-23 06:17:04

回答 1查看 1.8K关注 0票数 0

我正在使用K-Means和聚类处理WEKA。

通常，我在项目的数据集上检查不同的算法。

我不能决定我应该选择什么最佳SSE/集群比率。

从理论上讲，随着集群的增加，SSE会减少，但直到哪里呢？

发现了一些手指法则，K= (n/2)^0.5，有人能对此表示赞同吗？

cluster-analysis

weka

k-means

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-04-23 16:05:48

请注意，Weka没有太多的集群。它主要是一个分类工具。

平方和是一种以k均值为中心的度量。不要费心将此度量用于任何其他算法。这是过度拟合:这是k-means优化的度量，所以它当然会得到最好的结果(通过添加另一个集群，它将能够进一步改进这个度量，这并不令人惊讶)。

如果您想要评估集群的质量，最可靠(尽管也有问题)的方法是使用带标签的数据集。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16157674

复制

相似问题

问基于聚类K的数据挖掘SSE
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于聚类K的数据挖掘SSEEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于聚类K的数据挖掘SSE
EN