首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >PCA &聚类混淆

PCA &聚类混淆
EN

Data Science用户
提问于 2020-07-09 00:03:53
回答 1查看 64关注 0票数 1

我有一个关于K均值聚类和PCA的问题。在我的项目中,我有两个目标类--0和1- -并且我试图将被预测为0的记录分组到5个集群中。我严格使用PCA作为可视化技术,因为我的数据框架有8个维度,我需要将其降到2-3维才能看到集群。我的问题是关于我应该遵循的程序~

第一条路:

  1. 提取目标=0的所有记录
  2. PCA和KMeans只是在那些记录上

第二条路:

  1. 对所有记录(目标=0和1)进行PCA处理
  2. 用目标=0提取PCA记录(从步骤1中创建的PCA数据帧中)
  3. 在那些记录上做KMeans

使用这两种方法,记录的PCA1、PCA2、PCA3值(目标=0)是不同的。而且,由于PCA值不同,聚类可视化也呈现出不同的效果。我应该遵循哪种选择?

非常感谢!

EN

回答 1

Data Science用户

发布于 2020-07-09 03:30:16

我的回答是第二个选择

我认为PCA是通过计算数据最大变化的方向/轴来表示原始高维信息/低维数据。

在第一种情况下,你过滤0标记的观测,然后再进行PCA,这样PCA将根据较小版本的原始数据来度量变量,并且会产生与第二种情况不同的轴,其中PCA将测量所有数据的变化,因此在第二种情况下产生的轴可能是不同的。因此,在第一个选项中,在PCA之后得到的数据集不是高维0标记观测的正确表示。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/77411

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档