正如标题中所述,我感兴趣的是在PCA向量上应用KMeans和在KMean-ed向量上应用PCA之间的区别。
假设我们有一个单词嵌入数据集。数据集中的每个单词都嵌入到R300中。
我们希望对数据集进行探索性分析,并为此决定应用KMeans,以便将单词分组到10个组中(任意选择的簇数)。
在完成这个过程之后,我们希望在R3中可视化结果。我们可以用两种策略来解决这个问题;
策略1-对KMeans向量和主成分分析执行R300,直到R3:
结果:http://kmeanspca.000webhostapp.com/KMeans_PCA_R3.html
策略2-对R300执行主成分分析,直到R3,然后是KMeans:
结果:http://kmeanspca.000webhostapp.com/PCA_KMeans_R3.html
所得到的结果有什么不同吗?有什么解释吗?
如果这两种策略实际上是相同的话。为什么会这样呢?
发布于 2018-10-21 20:56:49
是有区别的。在您的第一种策略中,对三维空间的投影并不能确保集群不重叠(而如果您首先执行投影,则会发生重叠)。
这是因为有些团簇是分开的,但它们的分离面是正交的(或接近于PCA )。
如果您增加PCA的数量,或者减少集群的数量,那么这两种方法之间的差异应该可以忽略不计。
发布于 2018-10-23 08:27:44
在建模之前,我建议将GloVe信息应用于您的word结构:斯坦福大学手套。
这样你就可以提取有意义的概率密度。如果您然后PCA减少维度,至少您有相互关联的上下文,解释相互作用。
有效地,你将有更好的结果,因为密集向量在相关性方面更有代表性,它们之间的关系是确定的。这是由于密集矢量是一种代表形式的相互作用。此过程将允许您以一种有意义的方式使用pca减少维度;)
https://datascience.stackexchange.com/questions/40012
复制相似问题