文章/答案/技术大牛

发布

社区首页 >问答首页 >KMeans对PCA和PCA在KMeans上应用的区别

问KMeans对PCA和PCA在KMeans上应用的区别
EN

Data Science用户

提问于 2018-10-21 16:55:52

回答 2查看 262关注 0票数 1

简短提问：

正如标题中所述，我感兴趣的是在PCA向量上应用KMeans和在KMean-ed向量上应用PCA之间的区别。

长问题：

假设我们有一个单词嵌入数据集。数据集中的每个单词都嵌入到R300中。

我们希望对数据集进行探索性分析，并为此决定应用KMeans，以便将单词分组到10个组中(任意选择的簇数)。

在完成这个过程之后，我们希望在R3中可视化结果。我们可以用两种策略来解决这个问题；

策略1-对KMeans向量和主成分分析执行R300，直到R3：

将KMeans应用于R300嵌入。
对R300嵌入执行主成分分析并获取R3向量。
根据通过R3获得的簇绘制KMeans向量

结果：http://kmeanspca.000webhostapp.com/KMeans_PCA_R3.html

策略2-对R300执行主成分分析，直到R3，然后是KMeans：

对R300嵌入执行主成分分析并获取R3向量。
将KMeans应用于R3嵌入。
根据通过R3获得的簇绘制KMeans向量

结果：http://kmeanspca.000webhostapp.com/PCA_KMeans_R3.html

所得到的结果有什么不同吗？有什么解释吗？

如果这两种策略实际上是相同的话。为什么会这样呢？

clustering

visualization

k-means

dimensionality-reduction

pca

回答 2

Data Science用户

发布于 2018-10-21 20:56:49

是有区别的。在您的第一种策略中，对三维空间的投影并不能确保集群不重叠(而如果您首先执行投影，则会发生重叠)。

这是因为有些团簇是分开的，但它们的分离面是正交的(或接近于PCA )。

如果您增加PCA的数量，或者减少集群的数量，那么这两种方法之间的差异应该可以忽略不计。

票数 1

Data Science用户

发布于 2018-10-23 08:27:44

在建模之前，我建议将GloVe信息应用于您的word结构：斯坦福大学手套。

这样你就可以提取有意义的概率密度。如果您然后PCA减少维度，至少您有相互关联的上下文，解释相互作用。

有效地，你将有更好的结果，因为密集向量在相关性方面更有代表性，它们之间的关系是确定的。这是由于密集矢量是一种代表形式的相互作用。此过程将允许您以一种有意义的方式使用pca减少维度;)

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/40012

复制

相似问题

问KMeans对PCA和PCA在KMeans上应用的区别
EN

简短提问：

长问题：

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问KMeans对PCA和PCA在KMeans上应用的区别EN

简短提问：

长问题：

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问KMeans对PCA和PCA在KMeans上应用的区别
EN