开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >词嵌入/词向量是如何工作/创建的？

问词嵌入/词向量是如何工作/创建的？
EN

Stack Overflow用户

提问于 2017-09-06 10:32:37

回答 1查看 319关注 0票数 2

word2vec是如何为单词创建向量的？我使用两个不同的文件(来自公共爬虫网站)训练了两个word2vec模型，但我从这两个模型获得了相同的单词向量。

实际上，我已经创建了多个word2vec模型使用不同的文本文件从公共爬虫网站。现在我想看看哪种型号更好。如何从所有这些模型中选择最好的模型，以及为什么我要为不同的模型获得相同的单词向量？

对不起，如果问题不清楚的话。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-09-06 17:32:11

如果你从不同的文本模型中得到相同的单词向量，那么在你的过程中可能会有问题。您可能根本没有执行任何培训，这可能是因为如何向Word2Vec类提供文本可迭代性方面的问题。(在这种情况下，字向量将保持其初始的、随机初始化的值。)

您应该启用日志记录，并仔细检查日志，以查看在过程中显示的单词、示例、进度和增量进度的合理计数。你也应该检查结果，因为一些表面的，临时的检查似乎是明智的训练后.例如，model.most_similar('hot')是否返回类似于“热”的其他单词/概念？

一旦你确定模型被训练在不同的身体上--在这种情况下，它们的文字向量应该有很大的不同--决定哪种模型是“最好的”取决于你使用单词向量的具体目标。

您应该设计一种可重复的、定量的方法来根据您的最终用途来评估模型。这可能是从您自己的一些手工评审结果开始的，比如查看most_similar()结果以获得更好/更坏的结果--但是应该变得更广泛。严格的，自动化的，随着你的项目进展。

这种自动评分的一个例子是gensim的单词向量对象上的accuracy()方法.请参见：

https://github.com/RaRe-Technologies/gensim/blob/6d6f5dcfa3af4bc61c47dfdf5cdbd8e1364d0c3a/gensim/models/keyedvectors.py#L652

如果提供了一个特定格式的字词类比文件，它将检查单词向量解决这些类比的效果。例如，谷歌最初发布的questions-words.txt word2vec代码包含了用于报告矢量质量的类推。不过，请注意，最好用于某些目的的单词向量，如理解文本主题或情感，可能也不是解决这种类推方式的最佳方法，反之亦然。如果训练你自己的单词向量，最好根据你自己特定目标的标准来选择你的训练语料库/参数。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46072991

复制

相似问题