文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么当使用2D和3D数据时，侧影分数和最优聚类数会发生变化？

问为什么当使用2D和3D数据时，侧影分数和最优聚类数会发生变化？
EN

Data Science用户

提问于 2021-01-03 04:07:36

回答 1查看 1.1K关注 0票数 1

我正在试验Kmeans聚类。我的数据(向量)是在300个维度，我正在转换为2D和3D使用PCA。现在，为了找到最佳的簇数，我使用了剪影得分。然而，对于2D，最佳的侧影得分是显示在3个集群(剪影得分= 0.45)，而在3D显示9个集群(剪影评分= 0.3861)。

我想知道这是否正常？如果是，原因是什么？我应该选择什么2D或3D？

同时，对2D和3D进行实验的原因也是因为我想用海运绘制3D图。

python-3.x

seaborn

clustering

k-means

回答 1

Data Science用户

回答已采纳

发布于 2021-01-03 08:02:28

是的，这是可能的。事实上，这是相当正常的，因为在2D中有不同的集群，在3D中有不同的集群，因为或多或少的信息被添加到数据中(通过有更多的维度)。这是维度诅咒的副产品.

尽可能增加更多的相关信息将使集群更接近于潜在的组群。所以3D比2D更好。这是一个一般性的观察。当然，在低维流形中投影数据确实更好，因为它可以更好地消除噪声和/或捕获特定属性，而不是在所有(可能无关的)维度上进行聚类(维度诅咒的另一个副产品)。

如果数据中的相关信息具有低维性，但这些信息沿原始数据中的多个维度关联，则需要一种特征提取方法来从原始数据中获取低维相关信息(例如PCA、ICA、.)。

关于这个方向上的一些参考资料，请参阅例如：

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/87437

复制

相似问题

问为什么当使用2D和3D数据时，侧影分数和最优聚类数会发生变化？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么当使用2D和3D数据时，侧影分数和最优聚类数会发生变化？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么当使用2D和3D数据时，侧影分数和最优聚类数会发生变化？
EN