首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >K-means聚类:如何确定哪些变量会影响聚类?

K-means聚类:如何确定哪些变量会影响聚类?
EN

Stack Overflow用户
提问于 2020-07-08 23:04:08
回答 1查看 341关注 0票数 1

我正在对86个不同的变量进行聚类分析,我设法使用PCA将其减少到19个PCA。使用sk-learn的K-means聚类算法,我得到了10个聚类。但是,我不能确定哪些变量负责分离这些集群。如何确定对某个集群负责的变量。

EN

回答 1

Stack Overflow用户

发布于 2020-07-22 02:38:20

PCA创建主成分,其本质上可以被认为是底层特征的一些线性组合,以帮助将维度从86个特征降低到具有最大方差的19个“主成分”。

为了理解这些主成分是基于什么判别特征,你必须深入了解PCA是如何做的。简单地说,PCA对86个特征的相关矩阵进行特征分解。然后,它将数据投影到一个新的向量空间,该空间由具有最高特征值的19个特征向量组成。

为了粗略地估计PCA认为哪些特征是“主要的”,你可以手动对相关矩阵进行特征分解,看看哪些特征具有最高的特征值。但是,请记住,这不是1-1的相关性,因为PCA使用这86个特征的一些线性组合来降低维数。但是,特征分解可能能够帮助您更好地理解数据。

此外,如果你感兴趣,这里有一个关于主成分分析的很好的解释,以及它与特征分解的关系:https://stats.stackexchange.com/questions/2691/making-sense-of-principal-component-analysis-eigenvectors-eigenvalues

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62797835

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档