我有一个尖叫复习数据集。我在yelp评论的文本列上做了一个word2vector嵌入。我使用无监督的学习K-均值和PCA & TSNE来可视化数据。我有6个团簇,它们很好地分开了。现在,我想为每个集群标签创建一个"Word-Cloud“。一个人能给出怎么做的想法吗?谢谢。
发布于 2021-06-24 17:10:33
要正确回答你的问题,有必要理解PCA轴的含义。
根据多维矢量中的线性相关关系建立主分量。很难给它们一个恰当的含义,它们只是从统计角度来看是相关的,但是如果你看到它们的标签,你就可以看到它们是否有共同的领域(例如,“吉他”和“钢琴”可能接近定义“声音”的主要成分)。
另一方面,聚类越集中,点之间的相关性就越大,但是你必须考虑它们离主分量轴的距离。
例如,如果有一个非常接近PC2轴的集中簇,但远离PC1,这意味着它们与PC2高度相关,而与PC1无关。
那么,如果2个簇相对于0是相反的,那么它们都是反相关的。
如果2个团簇相对于0成90°角,则它们之间没有相关性。
https://datascience.stackexchange.com/questions/97038
复制相似问题