首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Word2vec构建词汇表将TM添加到words中

Word2vec构建词汇表将TM添加到words中
EN

Stack Overflow用户
提问于 2022-05-22 15:52:18
回答 1查看 16关注 0票数 0

我试着把我的文本数据转换成向量。我想把ultraram这个词转换成向量。我使用model.build_vocab将单词添加到模型中,但只添加了ultraramTM。我做错了什么

代码语言:javascript
复制
        model.save("word2vec.model2")
        model = Word2Vec.load("word2vec.model2")
        model.build_vocab(data_tokenized, update=True)
        # Store just the words + their trained embeddings.
        word_vectors = model.wv
        word_vectors.save("word2vec.wordvectors2")
        # Load back with memory-mapping = read-only, shared across processes.
        self.wv = KeyedVectors.load("word2vec.wordvectors2", mmap='r')
        
for i in self.wv.key_to_index:
            if "ultrar" in i:
                print(i)

超现实超现实超相对论超现实超现实™制造

它用TM显示了一些单词。这是什么意思?我怎样才能在不使用tm的情况下添加“胞拉姆”这个词。

EN

回答 1

Stack Overflow用户

发布于 2022-05-22 18:32:46

如果在某些标记的末尾有一个,那么那些带有的标记就是第一次建立它的词汇表时传递给模型的内容。

如果你不想要的话,你必须在你的代币过程中脱去它们。(您当前的问题/代码没有显示您如何标记您的数据。)

另外:

直接使用.load()来替换Word2Vec模型的现有KeyedVectors通常是不可靠的:Word2Vec并不期望与自己的初始化/培训分开进行更改。

它可能在这个有限的案例中起作用,与刚才保存的单词向量完全相同,但在这种情况下,你为什么要这么做还不清楚。从评论中看,这里的动机似乎是为了节省一些记忆。但是,如果您只是查找单词向量,那么您根本就没有完整的Word2Vec模型。您可以单独使用KeyedVectors集(以节省更多的内存)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72339122

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档