首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >KMeans对PCA和PCA在KMeans上应用的区别

KMeans对PCA和PCA在KMeans上应用的区别
EN

Data Science用户
提问于 2018-10-21 16:55:52
回答 2查看 262关注 0票数 1

简短提问:

正如标题中所述,我感兴趣的是在PCA向量上应用KMeans和在KMean-ed向量上应用PCA之间的区别。

长问题:

假设我们有一个单词嵌入数据集。数据集中的每个单词都嵌入到R300中。

我们希望对数据集进行探索性分析,并为此决定应用KMeans,以便将单词分组到10个组中(任意选择的簇数)。

在完成这个过程之后,我们希望在R3中可视化结果。我们可以用两种策略来解决这个问题;

策略1-对KMeans向量和主成分分析执行R300,直到R3:

  1. 将KMeans应用于R300嵌入。
  2. 对R300嵌入执行主成分分析并获取R3向量。
  3. 根据通过R3获得的簇绘制KMeans向量

结果:http://kmeanspca.000webhostapp.com/KMeans_PCA_R3.html

策略2-对R300执行主成分分析,直到R3,然后是KMeans:

  1. 对R300嵌入执行主成分分析并获取R3向量。
  2. 将KMeans应用于R3嵌入。
  3. 根据通过R3获得的簇绘制KMeans向量

结果:http://kmeanspca.000webhostapp.com/PCA_KMeans_R3.html

所得到的结果有什么不同吗?有什么解释吗?

如果这两种策略实际上是相同的话。为什么会这样呢?

EN

回答 2

Data Science用户

发布于 2018-10-21 20:56:49

是有区别的。在您的第一种策略中,对三维空间的投影并不能确保集群不重叠(而如果您首先执行投影,则会发生重叠)。

这是因为有些团簇是分开的,但它们的分离面是正交的(或接近于PCA )。

如果您增加PCA的数量,或者减少集群的数量,那么这两种方法之间的差异应该可以忽略不计。

票数 1
EN

Data Science用户

发布于 2018-10-23 08:27:44

在建模之前,我建议将GloVe信息应用于您的word结构:斯坦福大学手套

这样你就可以提取有意义的概率密度。如果您然后PCA减少维度,至少您有相互关联的上下文,解释相互作用。

有效地,你将有更好的结果,因为密集向量在相关性方面更有代表性,它们之间的关系是确定的。这是由于密集矢量是一种代表形式的相互作用。此过程将允许您以一种有意义的方式使用pca减少维度;)

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/40012

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档