有一些嵌入模型已经使用了Sentencepiece模型来进行标记化。因此,他们给出了不存在于词汇表中的未知单词的子词向量。但是我想得到每个单词的单词向量,比如Word2vec,fastText。我应该平均子词向量来表示单词向量吗?
发布于 2020-03-27 14:57:01
我在相似的行上做了一些实验,平均所有的子词嵌入与一个单词的同义词有更好的余弦相似性。因此,sentencepiece
https://stackoverflow.com/questions/60720939
复制相似问题