我试着把我的文本数据转换成向量。我想把ultraram这个词转换成向量。我使用model.build_vocab将单词添加到模型中,但只添加了ultraramTM。我做错了什么
model.save("word2vec.model2")
model = Word2Vec.load("word2vec.model2")
model.build_vocab(data_tokenized, update=True)
# Store just the words + their trained embeddings.
word_vectors = model.wv
word_vectors.save("word2vec.wordvectors2")
# Load back with memory-mapping = read-only, shared across processes.
self.wv = KeyedVectors.load("word2vec.wordvectors2", mmap='r')
for i in self.wv.key_to_index:
if "ultrar" in i:
print(i)超现实超现实超相对论超现实超现实™制造
它用TM显示了一些单词。这是什么意思?我怎样才能在不使用tm的情况下添加“胞拉姆”这个词。
发布于 2022-05-22 18:32:46
如果在某些标记的末尾有一个™,那么那些带有™的标记就是第一次建立它的词汇表时传递给模型的内容。
如果你不想要的话,你必须在你的代币过程中脱去它们。(您当前的问题/代码没有显示您如何标记您的数据。)
另外:
直接使用.load()来替换Word2Vec模型的现有KeyedVectors通常是不可靠的:Word2Vec并不期望与自己的初始化/培训分开进行更改。
它可能在这个有限的案例中起作用,与刚才保存的单词向量完全相同,但在这种情况下,你为什么要这么做还不清楚。从评论中看,这里的动机似乎是为了节省一些记忆。但是,如果您只是查找单词向量,那么您根本就没有完整的Word2Vec模型。您可以单独使用KeyedVectors集(以节省更多的内存)。
https://stackoverflow.com/questions/72339122
复制相似问题