我想使用新的文本数据集将新词添加到经过训练的gensim word2vec模型中。但是,我希望保留旧的单词嵌入,只将数据集中的新单词添加到现有模型中。这意味着用新文本数据集简单地重新训练旧模型不是一种选择,因为它将重新调整也在新文本数据集中的先前单词嵌入的向量。你能对这项任务有什么建议吗?我想要一些像Gensim的doc2vec推断功能,你给模型一些文本输入,它给出一个向量作为输出。谢谢。
发布于 2019-09-04 04:53:51
我将执行以下操作(pseudoPython):
for word in new_words:
# find words that should be nearby
synonyms = thesaurus.lookup(word)
# initialize an empty word vector
new_word_embedding = np.zeros(number_of_dimensions_a_word_vector_is)
# average the embeddings of synonyms
for syn in synonyms:
if w2v.get_embedding(syn):
a = np.array(new_word_embedding, w2v.get_embedding(syn))
new_word_embedding = np.mean(a, axis=0)https://stackoverflow.com/questions/49210010
复制相似问题