文章/答案/技术大牛

发布

社区首页 >问答首页 >两个不同的OOV字能在FastText中得到相同的向量吗？

问两个不同的OOV字能在FastText中得到相同的向量吗？
EN

Data Science用户

提问于 2019-12-19 05:40:21

回答 1查看 223关注 0票数 4

既然FastText总结了一个OOV词的子词的向量(不考虑顺序)，那么两个不同的OOV词是否有可能得到相同的向量呢？如果是，那你能举个例子吗？

word-embeddings

word2vec

vector-space-models

回答 1

Data Science用户

回答已采纳

发布于 2019-12-19 08:44:34

TL；

博士

理论上这是可能的，但不太可能。

1)不常见的子词

word1 = 'iiii'
word2 = 'jjjj'

word1_subwords = ['<ii', 'iii', 'iii', 'ii>']
word2_subwords = ['<jj', 'jjj', 'jjj', 'jj>']

在本例中，基本上有6子词：['<ii', '<jj', 'iii', 'jjj', 'ii>', 'jj>']，但这些子词一般都不是普通的子字。因此，所有子词的嵌入都可能是相同的(例如[0,0,...,0,0])，使得它们的和都是相同的。

2)同形

word1 = 'lie' # meaning: tell something untruthful
word2 = 'lie' # meaning: to rest on a horizontal position

在这个例子中，有两个同形词。这些是不同的单词，但它们的拼写相同。因为FastText只考虑语法，所以它们将有相同的子单词嵌入和。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/65096

复制

相似问题

问两个不同的OOV字能在FastText中得到相同的向量吗？
EN

回答 1

Data Science用户

TL；

1)不常见的子词

2)同形

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问两个不同的OOV字能在FastText中得到相同的向量吗？EN

回答 1

Data Science用户

TL；

1)不常见的子词

2)同形

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问两个不同的OOV字能在FastText中得到相同的向量吗？
EN