首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当数据集包含具有文本数据的多列时,如何使用关联矩阵?

当数据集包含具有文本数据的多列时,如何使用关联矩阵?
EN

Data Science用户
提问于 2019-01-15 17:59:51
回答 1查看 196关注 0票数 0

如何将它与亚马逊美食评论数据集结合使用?

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-01-15 18:50:14

问题是相关矩阵必须用数值来处理。所以你要做的就是把文本转换成数字向量。有几种方法可以做到这一点,像gensim这样的库可以使实现更容易。

在所有文本中最常用的单词的向量被创建.然后,对于每个文本样本,计算该样本中每个单词的出现情况。

代码语言:javascript
复制
"John likes to watch movies Mary likes movies too"

会给

代码语言:javascript
复制
{"John":1,"likes":2,"to":1,"watch":1,"movies":2,"Mary":1,"too":1, ... other words in corpus}

然后,它的值可以用来计算相关矩阵。

代码语言:javascript
复制
[1,2,1,1,2,1,1, ...]

该方法还可以通过TF进行改进。

单词嵌入和平均单词嵌入是指将一个单词映射到试图将信息编码到一个单词中的向量。它们可以从零开始为手头的任务进行训练,但也有预先训练过的字嵌入,它们可以输入一个单词并输出一个嵌入向量。要从整个文本中获取单个向量,可以使用平均字嵌入。

Doc2Vec Doc2Vec扩展了word嵌入,并被专门用于嵌入整个文本块。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/44055

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档