首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >两个不同的OOV字能在FastText中得到相同的向量吗?

两个不同的OOV字能在FastText中得到相同的向量吗?
EN

Data Science用户
提问于 2019-12-19 05:40:21
回答 1查看 223关注 0票数 4

既然FastText总结了一个OOV词的子词的向量(不考虑顺序),那么两个不同的OOV词是否有可能得到相同的向量呢?如果是,那你能举个例子吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-12-19 08:44:34

TL;

博士

理论上这是可能的,但不太可能。

1)不常见的子词

代码语言:javascript
复制
word1 = 'iiii'
word2 = 'jjjj'

word1_subwords = ['<ii', 'iii', 'iii', 'ii>']
word2_subwords = ['<jj', 'jjj', 'jjj', 'jj>']

在本例中,基本上有6子词:['<ii', '<jj', 'iii', 'jjj', 'ii>', 'jj>'],但这些子词一般都不是普通的子字。因此,所有子词的嵌入都可能是相同的(例如[0,0,...,0,0]),使得它们的和都是相同的。

2)同形

代码语言:javascript
复制
word1 = 'lie' # meaning: tell something untruthful
word2 = 'lie' # meaning: to rest on a horizontal position

在这个例子中,有两个同形词。这些是不同的单词,但它们的拼写相同。因为FastText只考虑语法,所以它们将有相同的子单词嵌入和。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/65096

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档