问Word2vec构建词汇表将TM添加到words中
EN

Stack Overflow用户

提问于 2022-05-22 15:52:18

回答 1查看 16关注 0票数 0

我试着把我的文本数据转换成向量。我想把ultraram这个词转换成向量。我使用model.build_vocab将单词添加到模型中，但只添加了ultraramTM。我做错了什么

        model.save("word2vec.model2")
        model = Word2Vec.load("word2vec.model2")
        model.build_vocab(data_tokenized, update=True)
        # Store just the words + their trained embeddings.
        word_vectors = model.wv
        word_vectors.save("word2vec.wordvectors2")
        # Load back with memory-mapping = read-only, shared across processes.
        self.wv = KeyedVectors.load("word2vec.wordvectors2", mmap='r')
        
for i in self.wv.key_to_index:
            if "ultrar" in i:
                print(i)

超现实超现实超相对论超现实超现实™制造

它用TM显示了一些单词。这是什么意思？我怎样才能在不使用tm的情况下添加“胞拉姆”这个词。

word2vec

回答 1

Stack Overflow用户

发布于 2022-05-22 18:32:46

如果在某些标记的末尾有一个™，那么那些带有™的标记就是第一次建立它的词汇表时传递给模型的内容。

如果你不想要的话，你必须在你的代币过程中脱去它们。(您当前的问题/代码没有显示您如何标记您的数据。)

另外：

直接使用.load()来替换Word2Vec模型的现有KeyedVectors通常是不可靠的：Word2Vec并不期望与自己的初始化/培训分开进行更改。

它可能在这个有限的案例中起作用，与刚才保存的单词向量完全相同，但在这种情况下，你为什么要这么做还不清楚。从评论中看，这里的动机似乎是为了节省一些记忆。但是，如果您只是查找单词向量，那么您根本就没有完整的Word2Vec模型。您可以单独使用KeyedVectors集(以节省更多的内存)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72339122

复制

相似问题

问Word2vec构建词汇表将TM添加到words中
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Word2vec构建词汇表将TM添加到words中EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Word2vec构建词汇表将TM添加到words中
EN