首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么当使用2D和3D数据时,侧影分数和最优聚类数会发生变化?

为什么当使用2D和3D数据时,侧影分数和最优聚类数会发生变化?
EN

Data Science用户
提问于 2021-01-03 04:07:36
回答 1查看 1.1K关注 0票数 1

我正在试验Kmeans聚类。我的数据(向量)是在300个维度,我正在转换为2D和3D使用PCA。现在,为了找到最佳的簇数,我使用了剪影得分。然而,对于2D,最佳的侧影得分是显示在3个集群(剪影得分= 0.45),而在3D显示9个集群(剪影评分= 0.3861)。

我想知道这是否正常?如果是,原因是什么?我应该选择什么2D或3D?

同时,对2D和3D进行实验的原因也是因为我想用海运绘制3D图。

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-01-03 08:02:28

是的,这是可能的。事实上,这是相当正常的,因为在2D中有不同的集群,在3D中有不同的集群,因为或多或少的信息被添加到数据中(通过有更多的维度)。这是维度诅咒的副产品.

尽可能增加更多的相关信息将使集群更接近于潜在的组群。所以3D比2D更好。这是一个一般性的观察。当然,在低维流形中投影数据确实更好,因为它可以更好地消除噪声和/或捕获特定属性,而不是在所有(可能无关的)维度上进行聚类(维度诅咒的另一个副产品)。

如果数据中的相关信息具有低维性,但这些信息沿原始数据中的多个维度关联,则需要一种特征提取方法来从原始数据中获取低维相关信息(例如PCA、ICA、.)。

关于这个方向上的一些参考资料,请参阅例如:

  1. 高维聚类方法研究
  2. 高维和多维生物数据的K均值聚类研究
  3. 我怎么知道我的k-均值聚类算法正在遭受维数的诅咒?
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/87437

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档