首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >解释聚类度量

解释聚类度量
EN

Stack Overflow用户
提问于 2016-08-03 11:42:36
回答 2查看 154关注 0票数 1

我在Scikit中用k均值进行聚类,学习398个样本,306个特性。特征矩阵稀疏,簇数为4。为了改进聚类,我尝试了两种方法:

  1. 聚类之后,我使用ExtraTreesClassifier()对特征重要性进行分类和计算(聚类中标记的样本)。
  2. 我使用PCA将特征维降为2。我计算了以下指标(党卫军 CHSH) 方法sum_of_squares,Calinski_Harabasz,剪影1公里,31.682 401.3 0.879 2公里+顶部特征5989230.351 75863584.45 0.977 3 kmeans+PCA 890.5431893 58479.00277 0.993

我的问题是:

  1. 据我所知,如果平方和较小,则聚类方法的性能较好,而当轮廓接近1时,聚类方法的性能较好。例如,在最后一行中,与第一行相比,正方形和轮廓的总和都增加了。
  2. 如何选择哪种方法具有更好的性能?
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-08-03 21:48:16

永远不要在不同的投影、转换或数据集之间比较平方和类似的度量.

要知道为什么,只需将每个特性乘以0.5 -你的SSQ会下降0.25。所以为了“改进”你的数据集,你只需要把它缩小到一个很小的尺寸.

这些指标只能在完全相同的输入和参数上使用。你甚至不能用平方和来比较k-均值和不同的k,因为较大的k会赢。你所能做的就是多次随机尝试,然后保持你找到的最好的最小值。

票数 2
EN

Stack Overflow用户

发布于 2016-08-05 07:20:43

有306个特性,您是在维度诅咒下面。306个维度的聚类是没有意义的。因此,我不会在集群之后选择特性。

要获得可解释的结果,您需要降低维度。对于398个样本,你需要低维数(2,3,也许4)。你的第二维度的主成分分析很好。你可以试试3。

在聚类之前选择重要特性的方法可能会有问题。无论如何,2/3/4的“最佳”功能在您的情况下是否有意义?

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38742613

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档