问word2vec访客词嵌入
EN

Stack Overflow用户

提问于 2017-07-06 22:21:13

回答 1查看 813关注 0票数 2

word2vec可以用来猜测仅有上下文的单词吗？在使用大型数据集(例如谷歌新闻)训练模型后，我如何使用word2vec来预测只有上下文的相似单词，例如使用输入“统治国际象棋超过15年的人将在密苏里州圣路易斯市与九名顶级棋手竞争。”输出应该是Kasparov或者Carlsen。

我只看过相似性apis，但我不明白如何使用它们来实现这一点？这不是word2vec的用意吗？

word2vec

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-07-07 19:46:03

这不是word2vec的预期用途。word2vec算法在内部尝试使用周围的单词来预测确切的单词，作为一种间接的方法来学习周围单词的有用向量。

但即便如此，它在训练过程中也不能形成准确的预测。它只是查看单个狭窄的训练示例-上下文词和目标词-并执行非常简单的比较和内部推动，以使其对该示例的符合性稍好一些。随着时间的推移，这种自我调整向有用的向量-即使预测仍然是非常不同的质量。

大多数word2vec库不提供直接接口来显示给定上下文词的排名预测。Python gensim库针对最近的几个版本(截至2017年7月的当前版本2.2.0 )提供了一种predict_output_word()方法，该方法粗略地显示了在给定上下文词的情况下，对于某些训练模式模型将预测的内容。请参见：

https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec.predict_output_word

然而，考虑到您的填空查询(在相关的教育或机器学习上下文中也称为“完形删除”)：

_____, who dominated chess for more than 15 years, will compete against nine top players in St Louis, Missouri

一款普通的word2vec模型不太可能做到这一点。它几乎没有意识到单词的相对重要性(除非某些单词对其他单词具有更狭义的预测能力)。它没有语法/顺序的意义，也没有连接短语的组合意义(比如‘支配的国际象棋’，而不是单独的单词‘支配的’和‘象棋’)。尽管描述同一类事物的单词通常彼此接近，但它不知道类别，无法确定空白必须是“人”和“棋手”，而且word2vec的模糊相似性并不能保证类中的单词一定会比其他单词都更接近。

已经有一系列的工作来训练单词/概念向量(也称为“密集嵌入”)，以便更好地帮助完成这样的问答任务。一个随机的例子可能是"Creating Causal Embeddings for Question Answering with Minimal Supervision"，但是像word2vec问答或用于问答的嵌入这样的查询将会发现更多。我不知道有没有简单的开箱即用的库来做这件事，不管有没有word2vec的核心。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44951605

复制

相似问题

问word2vec访客词嵌入
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问word2vec访客词嵌入EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问word2vec访客词嵌入
EN