首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >word2vec访客词嵌入

word2vec访客词嵌入
EN

Stack Overflow用户
提问于 2017-07-06 22:21:13
回答 1查看 813关注 0票数 2

word2vec可以用来猜测仅有上下文的单词吗?在使用大型数据集(例如谷歌新闻)训练模型后,我如何使用word2vec来预测只有上下文的相似单词,例如使用输入“统治国际象棋超过15年的人将在密苏里州圣路易斯市与九名顶级棋手竞争。”输出应该是Kasparov或者Carlsen。

我只看过相似性apis,但我不明白如何使用它们来实现这一点?这不是word2vec的用意吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-07-07 19:46:03

这不是word2vec的预期用途。word2vec算法在内部尝试使用周围的单词来预测确切的单词,作为一种间接的方法来学习周围单词的有用向量。

但即便如此,它在训练过程中也不能形成准确的预测。它只是查看单个狭窄的训练示例-上下文词和目标词-并执行非常简单的比较和内部推动,以使其对该示例的符合性稍好一些。随着时间的推移,这种自我调整向有用的向量-即使预测仍然是非常不同的质量。

大多数word2vec库不提供直接接口来显示给定上下文词的排名预测。Python gensim库针对最近的几个版本(截至2017年7月的当前版本2.2.0 )提供了一种predict_output_word()方法,该方法粗略地显示了在给定上下文词的情况下,对于某些训练模式模型将预测的内容。请参见:

https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec.predict_output_word

然而,考虑到您的填空查询(在相关的教育或机器学习上下文中也称为“完形删除”):

代码语言:javascript
复制
_____, who dominated chess for more than 15 years, will compete against nine top players in St Louis, Missouri

一款普通的word2vec模型不太可能做到这一点。它几乎没有意识到单词的相对重要性(除非某些单词对其他单词具有更狭义的预测能力)。它没有语法/顺序的意义,也没有连接短语的组合意义(比如‘支配的国际象棋’,而不是单独的单词‘支配的’和‘象棋’)。尽管描述同一类事物的单词通常彼此接近,但它不知道类别,无法确定空白必须是“人”和“棋手”,而且word2vec的模糊相似性并不能保证类中的单词一定会比其他单词都更接近。

已经有一系列的工作来训练单词/概念向量(也称为“密集嵌入”),以便更好地帮助完成这样的问答任务。一个随机的例子可能是"Creating Causal Embeddings for Question Answering with Minimal Supervision",但是像word2vec问答或用于问答的嵌入这样的查询将会发现更多。我不知道有没有简单的开箱即用的库来做这件事,不管有没有word2vec的核心。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44951605

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档