问当数据集包含具有文本数据的多列时，如何使用关联矩阵？
EN

Data Science用户

提问于 2019-01-15 17:59:51

回答 1查看 196关注 0票数 0

如何将它与亚马逊美食评论数据集结合使用？

回答已采纳

发布于 2019-01-15 18:50:14

问题是相关矩阵必须用数值来处理。所以你要做的就是把文本转换成数字向量。有几种方法可以做到这一点，像gensim这样的库可以使实现更容易。

在所有文本中最常用的单词的向量被创建.然后，对于每个文本样本，计算该样本中每个单词的出现情况。

"John likes to watch movies Mary likes movies too"

会给

{"John":1,"likes":2,"to":1,"watch":1,"movies":2,"Mary":1,"too":1, ... other words in corpus}

然后，它的值可以用来计算相关矩阵。

[1,2,1,1,2,1,1, ...]

该方法还可以通过TF进行改进。

单词嵌入和平均单词嵌入是指将一个单词映射到试图将信息编码到一个单词中的向量。它们可以从零开始为手头的任务进行训练，但也有预先训练过的字嵌入，它们可以输入一个单词并输出一个嵌入向量。要从整个文本中获取单个向量，可以使用平均字嵌入。

Doc2Vec Doc2Vec扩展了word嵌入，并被专门用于嵌入整个文本块。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/44055

复制

相似问题

问当数据集包含具有文本数据的多列时，如何使用关联矩阵？EN