文章/答案/技术大牛

发布

社区首页 >问答首页 >在word2vec中，彼此是标量倍数的词向量之间的语义关系是什么？

问在word2vec中，彼此是标量倍数的词向量之间的语义关系是什么？
EN

Stack Overflow用户

提问于 2018-07-31 10:11:31

回答 1查看 95关注 0票数 1

假设您有一个单词向量，表示单词queen。它的一些标量倍数是x = queen + queen、y = queen + queen + queen和n * queen，对于任何实值n(所以我们也考虑n的非整数值，如在0.83 * queen中)。

根据最相似单词的投影权重向量的简单平均值和向量皇后+皇后之间的余弦相似性，将x视为与向量皇后+皇后最相似的单词。

用同样的方法认为y是与向量皇后+皇后+皇后最相似的词。

那么x、y和queen这三个词之间的语义关系是什么呢？我知道这些向量在向量内的维数之间都有相同的比率，但我很难从词义的角度来理解这一点。

我的直觉说，我会在另一个上下文中得到一个类似于皇后的位置。例如，女王的“财富”可能比女王的“美丽”要大得多。因此，我将在另一个上下文中得到另一个词，它与“女王”具有相同的财富/美丽平衡。

所以假设我要从皇家头衔(女王，国王，公主.)福布斯排行榜(杰夫·贝佐斯，比尔·盖茨，沃伦·巴菲特)。)当我把皇后乘以n的时候。

女王*n=“福布斯”排行榜上有着与女王相同的财富/美丽平衡的人(非常富有，但不太漂亮)。

“福布斯”榜单上有着和公主一样的财富/美丽平衡的人(适度富裕，但非常漂亮)

然而，这只是一个疯狂的理论，我不知道如何系统地证明这是真实的。

word2vec

linguistics

machine-learning

nlp

pca

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-08-01 06:26:54

大多数余弦(类似于wv['queen'] )的词将与大多数余弦相同--类似于n * wv['queen']，对于任何n，因为余弦相似性不受向量大小的影响。所以你的假设是错误的。

如果你使用欧几里德距离而不是余弦相似，在原始(非单位归一化)字向量上，你可能会发现一些其他有趣的关系.但这并不是一种使用/比较字向量的典型方法，所以你必须进行实验&我对你可能发现的东西或它是否有用没有任何期望。

一般来说，对于具有单一狭义意义的单词(它们出现的所有上下文都是非常相似的)，原始的非单位归一化字向量的大小往往较高，而具有多种意义和不同上下文的单词的震级往往较小。但我不确定你能不能从很多方面指望这个。一旦将单词向量归一化为单位长度--因此所有单词都在同一个“单位球面”上--那么最近邻的秩顺序就会按照余弦距离或欧几里得距离来表示相同(即使距离/相似数的大小在每个等级上都不会相同或成比例)。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51610905

复制

相似问题

问在word2vec中，彼此是标量倍数的词向量之间的语义关系是什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在word2vec中，彼此是标量倍数的词向量之间的语义关系是什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在word2vec中，彼此是标量倍数的词向量之间的语义关系是什么？
EN