问如何从gensim word2vec模型推断新的词向量？
EN

Stack Overflow用户

提问于 2018-03-10 22:10:15

回答 1查看 774关注 0票数 5

我想使用新的文本数据集将新词添加到经过训练的gensim word2vec模型中。但是，我希望保留旧的单词嵌入，只将数据集中的新单词添加到现有模型中。这意味着用新文本数据集简单地重新训练旧模型不是一种选择，因为它将重新调整也在新文本数据集中的先前单词嵌入的向量。你能对这项任务有什么建议吗？我想要一些像Gensim的doc2vec推断功能，你给模型一些文本输入，它给出一个向量作为输出。谢谢。

neural-network

word2vec

gensim

回答 1

Stack Overflow用户

发布于 2019-09-04 04:53:51

我将执行以下操作(pseudoPython)：

for word in new_words:
    # find words that should be nearby
    synonyms = thesaurus.lookup(word)

    # initialize an empty word vector
    new_word_embedding = np.zeros(number_of_dimensions_a_word_vector_is)

    # average the embeddings of synonyms
    for syn in synonyms:
        if w2v.get_embedding(syn):
            a = np.array(new_word_embedding, w2v.get_embedding(syn))
            new_word_embedding = np.mean(a, axis=0)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49210010

复制

相似问题

问如何从gensim word2vec模型推断新的词向量？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从gensim word2vec模型推断新的词向量？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从gensim word2vec模型推断新的词向量？
EN