假设您有一个单词向量,表示单词queen。它的一些标量倍数是x = queen + queen、y = queen + queen + queen和n * queen,对于任何实值n(所以我们也考虑n的非整数值,如在0.83 * queen中)。
根据最相似单词的投影权重向量的简单平均值和向量皇后+皇后之间的余弦相似性,将x视为与向量皇后+皇后最相似的单词。
用同样的方法认为y是与向量皇后+皇后+皇后最相似的词。
那么x、y和queen这三个词之间的语义关系是什么呢?我知道这些向量在向量内的维数之间都有相同的比率,但我很难从词义的角度来理解这一点。
我的直觉说,我会在另一个上下文中得到一个类似于皇后的位置。例如,女王的“财富”可能比女王的“美丽”要大得多。因此,我将在另一个上下文中得到另一个词,它与“女王”具有相同的财富/美丽平衡。
所以假设我要从皇家头衔(女王,国王,公主.)福布斯排行榜(杰夫·贝佐斯,比尔·盖茨,沃伦·巴菲特)。)当我把皇后乘以n的时候。
女王*n=“福布斯”排行榜上有着与女王相同的财富/美丽平衡的人(非常富有,但不太漂亮)。
“福布斯”榜单上有着和公主一样的财富/美丽平衡的人(适度富裕,但非常漂亮)
然而,这只是一个疯狂的理论,我不知道如何系统地证明这是真实的。
发布于 2018-08-01 06:26:54
大多数余弦(类似于wv['queen'] )的词将与大多数余弦相同--类似于n * wv['queen'],对于任何n,因为余弦相似性不受向量大小的影响。所以你的假设是错误的。
如果你使用欧几里德距离而不是余弦相似,在原始(非单位归一化)字向量上,你可能会发现一些其他有趣的关系.但这并不是一种使用/比较字向量的典型方法,所以你必须进行实验&我对你可能发现的东西或它是否有用没有任何期望。
一般来说,对于具有单一狭义意义的单词(它们出现的所有上下文都是非常相似的),原始的非单位归一化字向量的大小往往较高,而具有多种意义和不同上下文的单词的震级往往较小。但我不确定你能不能从很多方面指望这个。一旦将单词向量归一化为单位长度--因此所有单词都在同一个“单位球面”上--那么最近邻的秩顺序就会按照余弦距离或欧几里得距离来表示相同(即使距离/相似数的大小在每个等级上都不会相同或成比例)。
https://stackoverflow.com/questions/51610905
复制相似问题