首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >词嵌入/词向量是如何工作/创建的?

词嵌入/词向量是如何工作/创建的?
EN

Stack Overflow用户
提问于 2017-09-06 10:32:37
回答 1查看 319关注 0票数 2

word2vec是如何为单词创建向量的?我使用两个不同的文件(来自公共爬虫网站)训练了两个word2vec模型,但我从这两个模型获得了相同的单词向量。

实际上,我已经创建了多个word2vec模型使用不同的文本文件从公共爬虫网站。现在我想看看哪种型号更好。如何从所有这些模型中选择最好的模型,以及为什么我要为不同的模型获得相同的单词向量?

对不起,如果问题不清楚的话。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-09-06 17:32:11

如果你从不同的文本模型中得到相同的单词向量,那么在你的过程中可能会有问题。您可能根本没有执行任何培训,这可能是因为如何向Word2Vec类提供文本可迭代性方面的问题。(在这种情况下,字向量将保持其初始的、随机初始化的值。)

您应该启用日志记录,并仔细检查日志,以查看在过程中显示的单词、示例、进度和增量进度的合理计数。你也应该检查结果,因为一些表面的,临时的检查似乎是明智的训练后.例如,model.most_similar('hot')是否返回类似于“热”的其他单词/概念?

一旦你确定模型被训练在不同的身体上--在这种情况下,它们的文字向量应该有很大的不同--决定哪种模型是“最好的”取决于你使用单词向量的具体目标。

您应该设计一种可重复的、定量的方法来根据您的最终用途来评估模型。这可能是从您自己的一些手工评审结果开始的,比如查看most_similar()结果以获得更好/更坏的结果--但是应该变得更广泛。严格的,自动化的,随着你的项目进展。

这种自动评分的一个例子是gensim的单词向量对象上的accuracy()方法.请参见:

https://github.com/RaRe-Technologies/gensim/blob/6d6f5dcfa3af4bc61c47dfdf5cdbd8e1364d0c3a/gensim/models/keyedvectors.py#L652

如果提供了一个特定格式的字词类比文件,它将检查单词向量解决这些类比的效果。例如,谷歌最初发布的questions-words.txt word2vec代码包含了用于报告矢量质量的类推。不过,请注意,最好用于某些目的的单词向量,如理解文本主题或情感,可能也不是解决这种类推方式的最佳方法,反之亦然。如果训练你自己的单词向量,最好根据你自己特定目标的标准来选择你的训练语料库/参数。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46072991

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档