问Word2vec嵌入分析中的K-均值聚类
EN

Data Science用户

提问于 2021-06-24 14:06:22

回答 1查看 411关注 0票数 1

我有一个尖叫复习数据集。我在yelp评论的文本列上做了一个word2vector嵌入。我使用无监督的学习K-均值和PCA & TSNE来可视化数据。我有6个团簇，它们很好地分开了。现在，我想为每个集群标签创建一个"Word-Cloud“。一个人能给出怎么做的想法吗？谢谢。

发布于 2021-06-24 17:10:33

要正确回答你的问题，有必要理解PCA轴的含义。

根据多维矢量中的线性相关关系建立主分量。很难给它们一个恰当的含义，它们只是从统计角度来看是相关的，但是如果你看到它们的标签，你就可以看到它们是否有共同的领域(例如，“吉他”和“钢琴”可能接近定义“声音”的主要成分)。

另一方面，聚类越集中，点之间的相关性就越大，但是你必须考虑它们离主分量轴的距离。

例如，如果有一个非常接近PC2轴的集中簇，但远离PC1，这意味着它们与PC2高度相关，而与PC1无关。

那么，如果2个簇相对于0是相反的，那么它们都是反相关的。

如果2个团簇相对于0成90°角，则它们之间没有相关性。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/97038

复制

相似问题

问Word2vec嵌入分析中的K-均值聚类EN