首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Word2vec嵌入分析中的K-均值聚类

Word2vec嵌入分析中的K-均值聚类
EN

Data Science用户
提问于 2021-06-24 14:06:22
回答 1查看 411关注 0票数 1

我有一个尖叫复习数据集。我在yelp评论的文本列上做了一个word2vector嵌入。我使用无监督的学习K-均值和PCA & TSNE来可视化数据。我有6个团簇,它们很好地分开了。现在,我想为每个集群标签创建一个"Word-Cloud“。一个人能给出怎么做的想法吗?谢谢。

EN

回答 1

Data Science用户

发布于 2021-06-24 17:10:33

要正确回答你的问题,有必要理解PCA轴的含义。

根据多维矢量中的线性相关关系建立主分量。很难给它们一个恰当的含义,它们只是从统计角度来看是相关的,但是如果你看到它们的标签,你就可以看到它们是否有共同的领域(例如,“吉他”和“钢琴”可能接近定义“声音”的主要成分)。

另一方面,聚类越集中,点之间的相关性就越大,但是你必须考虑它们离主分量轴的距离。

例如,如果有一个非常接近PC2轴的集中簇,但远离PC1,这意味着它们与PC2高度相关,而与PC1无关。

那么,如果2个簇相对于0是相反的,那么它们都是反相关的。

如果2个团簇相对于0成90°角,则它们之间没有相关性。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/97038

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档