问从word向量到文档向量[text2vec]
EN

Stack Overflow用户

提问于 2017-12-03 06:11:34

回答 1查看 1.1K关注 0票数 4

我希望使用在GloVe中实现的text2vec单词嵌入来执行监督回归/分类。我在text2vec主页上阅读了关于如何生成单词向量的有用教程。但是，我很难掌握如何进一步处理，即应用或转换这些单词向量，并将它们附加到每个文档中，使每个文档都由一个向量(从其分量词的向量派生而来)表示，作为分类器的输入。我在网上遇到了一些简短文档的快速修复，但我的文档相当长(电影字幕)，而且似乎没有任何关于如何处理此类文档的指导--或者至少是与我的理解水平相匹配的指导；我有处理n字形、字典和主题模型的经验，但单词嵌入令我困惑。

谢谢!

text2vec

回答 1

Stack Overflow用户

发布于 2017-12-04 08:12:02

如果你的目标是对文档进行分类--我怀疑任何doc2vec方法都会胜过一字一句/一字一句。如果您还想尝试--常见的简单策略，短文档 (< 20字)是将文档表示为单词向量的加权和/平均值。

你可以通过这样的方式获得它：

common_terms = intersect(colnames(dtm), rownames(word_vectors) )
dtm_averaged =  normalize(dtm[, common_terms], "l1")
# you can re-weight dtm above with tf-idf instead of "l1" norm
sentence_vectors = dtm_averaged %*% word_vectors[common_terms, ]

我不知道有任何通用的方法可以为长文档获取良好的文档向量。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47615799

复制

相似问题

问从word向量到文档向量[text2vec]
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从word向量到文档向量[text2vec]EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从word向量到文档向量[text2vec]
EN