既然FastText总结了一个OOV词的子词的向量(不考虑顺序),那么两个不同的OOV词是否有可能得到相同的向量呢?如果是,那你能举个例子吗?
发布于 2019-12-19 08:44:34
博士
理论上这是可能的,但不太可能。
word1 = 'iiii'
word2 = 'jjjj'
word1_subwords = ['<ii', 'iii', 'iii', 'ii>']
word2_subwords = ['<jj', 'jjj', 'jjj', 'jj>']在本例中,基本上有6子词:['<ii', '<jj', 'iii', 'jjj', 'ii>', 'jj>'],但这些子词一般都不是普通的子字。因此,所有子词的嵌入都可能是相同的(例如[0,0,...,0,0]),使得它们的和都是相同的。
word1 = 'lie' # meaning: tell something untruthful
word2 = 'lie' # meaning: to rest on a horizontal position在这个例子中,有两个同形词。这些是不同的单词,但它们的拼写相同。因为FastText只考虑语法,所以它们将有相同的子单词嵌入和。
https://datascience.stackexchange.com/questions/65096
复制相似问题