好的,这是一个关于向Gensim python库提供训练数据时需要什么数据结构的具体问题。特别是,必须隐含地理解所提供的任何数据中的文档构成(否则,例如,它将无法找到tf-idf)。
例如,出于培训目的,在该库的教程中使用了wikipedia转储。维基百科转储以XML格式提供。是什么让gensim理解独立的文档?这种理解是建立在xml元素的基础上的吗?
发布于 2017-03-04 06:43:20
在前两个Gensim教程Corpora and Vector Spaces Tutorial和Corpora and Vector Spaces中已经回答了这个问题。他们通过代码示例向您介绍了所有步骤。
它们从documents对象(字符串列表)开始,展示了如何在其中创建字典和语料库,以及如何使用字典和语料库来创建模型。
在Experiments on the English Wikipedia教程示例代码中可以看到,字典和语料库是从序列化文件中读取的。我建议您浏览所有的tutorials和示例代码。
发布于 2017-03-16 18:36:23
Gensim是数据源不可知的。对于它的大部分功能,它只需要一个句子列表作为文档。实际上,这些文档甚至可以由虚构的单词组成(例如,为了使用word2vec on graphs)。
对于解析维基百科转储和其他常见的语料库类型,它提供了some utility classes。检查其corpora.*的API docs
https://stackoverflow.com/questions/42389748
复制相似问题