首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么是词向量维度

什么是词向量维度
EN

Stack Overflow用户
提问于 2016-07-01 13:16:49
回答 2查看 3.1K关注 0票数 4

我目前是一个深度学习的业余爱好者,在这个网站https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectors上读到了关于word2vector的文章

对于CBOW或skipgram模型,我可以看到单词向量的维度是300,词汇表大小是15000。我在之前的文章中读到,我们可以对向量中的单词进行硬编码。所以我猜单词向量维度应该等于词汇表大小,或者换一种方式,这个单词维度是什么,以及如何可视化它。你怎么看待这个维度呢?

EN

回答 2

Stack Overflow用户

发布于 2017-03-21 07:50:12

"Word Vector Dimension“是您使用训练文档训练的向量的维度。从技术上讲,你可以选择任何维度,比如10,100,300,甚至1000。行业标准是300- 500,因为我们已经试验了不同的维度(300,400,500,... 1000等)。但是没有注意到300-400之后的显著性能提升。(这还取决于您的训练数据。)听起来,更多的维度意味着更重的计算。然而,如果我们将维度设置得太低,那么就没有太多的向量空间来捕获整个训练文档包含的信息。

如何将其可视化?

你不能很容易地可视化300维向量,可能可视化300维向量对你来说也不是很有用。我们能做的就是将这些向量投影到二维空间,这是我们最熟悉的,也是我们很容易理解的空间。

您的最后一条语句是,所以我猜单词向量维度应该等于词汇表大小是错误的!单词大小为171,476个单词(英语单词总数)!词向量维度(主要是300-500。您不想训练10亿维向量,对吧?)是您预先决定用于训练数据的向量的大小。我的视频(无耻插件)将帮助您理解重要的词向量概念:AI with the Best

票数 5
EN

Stack Overflow用户

发布于 2016-07-01 23:27:35

实际上,单词向量维度并不反映词汇表的大小。Word2Vec所做的是将单词映射到它们在向量空间中的表示,您可以使这个空间具有您想要的任何维度::每个单词都由该空间中的一个点表示,单词向量维度是该单词在该空间中的坐标。此外,倾向于出现在同一上下文中的单词在此空间中相邻出现。

希望这能有所帮助

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38137551

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档