我想训练word2vec和fasttext,以获得我拥有的特定数据集的向量。
我的模型应该接受什么作为输入?
我的文件是这样的:
Customer_4: I want to book a ticket to New York.
Agent_9: Okay, when do you want the tickets for
Customer_4: hmm, wait a sec
Agent_9: Sure
Customer_4: When is the least expensive to fly现在,我应该如何为word2vec运行准备我的数据?word2vec模型是否考虑了句子间的相似性,即我不应该准备语料库句子。
发布于 2018-10-29 07:51:00
一种方法是首先将文档拆分成行,然后对每一行将该行拆分成标记。然后你会得到一个令牌列表的语料库。在此之后,您可以将其提供给gensim word2vec模型。
https://stackoverflow.com/questions/52982761
复制相似问题