我正在试验Kmeans聚类。我的数据(向量)是在300个维度,我正在转换为2D和3D使用PCA。现在,为了找到最佳的簇数,我使用了剪影得分。然而,对于2D,最佳的侧影得分是显示在3个集群(剪影得分= 0.45),而在3D显示9个集群(剪影评分= 0.3861)。
我想知道这是否正常?如果是,原因是什么?我应该选择什么2D或3D?
同时,对2D和3D进行实验的原因也是因为我想用海运绘制3D图。
发布于 2021-01-03 08:02:28
是的,这是可能的。事实上,这是相当正常的,因为在2D中有不同的集群,在3D中有不同的集群,因为或多或少的信息被添加到数据中(通过有更多的维度)。这是维度诅咒的副产品.
尽可能增加更多的相关信息将使集群更接近于潜在的组群。所以3D比2D更好。这是一个一般性的观察。当然,在低维流形中投影数据确实更好,因为它可以更好地消除噪声和/或捕获特定属性,而不是在所有(可能无关的)维度上进行聚类(维度诅咒的另一个副产品)。
如果数据中的相关信息具有低维性,但这些信息沿原始数据中的多个维度关联,则需要一种特征提取方法来从原始数据中获取低维相关信息(例如PCA、ICA、.)。
关于这个方向上的一些参考资料,请参阅例如:
https://datascience.stackexchange.com/questions/87437
复制相似问题