文章/答案/技术大牛

发布

社区首页 >问答首页 >解释聚类度量

问解释聚类度量
EN

Stack Overflow用户

提问于 2016-08-03 11:42:36

回答 2查看 154关注 0票数 1

我在Scikit中用k均值进行聚类，学习398个样本，306个特性。特征矩阵稀疏，簇数为4。为了改进聚类，我尝试了两种方法：

聚类之后，我使用ExtraTreesClassifier()对特征重要性进行分类和计算(聚类中标记的样本)。
我使用PCA将特征维降为2。我计算了以下指标(党卫军 CH，SH) 方法sum_of_squares，Calinski_Harabasz，剪影1公里，31.682 401.3 0.879 2公里+顶部特征5989230.351 75863584.45 0.977 3 kmeans+PCA 890.5431893 58479.00277 0.993

我的问题是：

据我所知，如果平方和较小，则聚类方法的性能较好，而当轮廓接近1时，聚类方法的性能较好。例如，在最后一行中，与第一行相比，正方形和轮廓的总和都增加了。
如何选择哪种方法具有更好的性能？

cluster-analysis

k-means

scikit-learn

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-08-03 21:48:16

永远不要在不同的投影、转换或数据集之间比较平方和类似的度量.

要知道为什么，只需将每个特性乘以0.5 -你的SSQ会下降0.25。所以为了“改进”你的数据集，你只需要把它缩小到一个很小的尺寸.

这些指标只能在完全相同的输入和参数上使用。你甚至不能用平方和来比较k-均值和不同的k，因为较大的k会赢。你所能做的就是多次随机尝试，然后保持你找到的最好的最小值。

票数 2

Stack Overflow用户

发布于 2016-08-05 07:20:43

有306个特性，您是在维度诅咒下面。306个维度的聚类是没有意义的。因此，我不会在集群之后选择特性。

要获得可解释的结果，您需要降低维度。对于398个样本，你需要低维数(2，3，也许4)。你的第二维度的主成分分析很好。你可以试试3。

在聚类之前选择重要特性的方法可能会有问题。无论如何，2/3/4的“最佳”功能在您的情况下是否有意义？

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38742613

复制

相似问题

问解释聚类度量
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问解释聚类度量EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问解释聚类度量
EN