我有一个关于K均值聚类和PCA的问题。在我的项目中,我有两个目标类--0和1- -并且我试图将被预测为0的记录分组到5个集群中。我严格使用PCA作为可视化技术,因为我的数据框架有8个维度,我需要将其降到2-3维才能看到集群。我的问题是关于我应该遵循的程序~
第一条路:
第二条路:
使用这两种方法,记录的PCA1、PCA2、PCA3值(目标=0)是不同的。而且,由于PCA值不同,聚类可视化也呈现出不同的效果。我应该遵循哪种选择?
非常感谢!
发布于 2020-07-09 03:30:16
我的回答是第二个选择
我认为PCA是通过计算数据最大变化的方向/轴来表示原始高维信息/低维数据。
在第一种情况下,你过滤0标记的观测,然后再进行PCA,这样PCA将根据较小版本的原始数据来度量变量,并且会产生与第二种情况不同的轴,其中PCA将测量所有数据的变化,因此在第二种情况下产生的轴可能是不同的。因此,在第一个选项中,在PCA之后得到的数据集不是高维0标记观测的正确表示。
https://datascience.stackexchange.com/questions/77411
复制相似问题