首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Gensim数据解析

Gensim数据解析
EN

Stack Overflow用户
提问于 2017-02-22 19:16:52
回答 2查看 344关注 0票数 0

好的,这是一个关于向Gensim python库提供训练数据时需要什么数据结构的具体问题。特别是,必须隐含地理解所提供的任何数据中的文档构成(否则,例如,它将无法找到tf-idf)。

例如,出于培训目的,在该库的教程中使用了wikipedia转储。维基百科转储以XML格式提供。是什么让gensim理解独立的文档?这种理解是建立在xml元素的基础上的吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-03-04 06:43:20

在前两个Gensim教程Corpora and Vector Spaces TutorialCorpora and Vector Spaces中已经回答了这个问题。他们通过代码示例向您介绍了所有步骤。

它们从documents对象(字符串列表)开始,展示了如何在其中创建字典和语料库,以及如何使用字典和语料库来创建模型。

Experiments on the English Wikipedia教程示例代码中可以看到,字典和语料库是从序列化文件中读取的。我建议您浏览所有的tutorials和示例代码。

票数 1
EN

Stack Overflow用户

发布于 2017-03-16 18:36:23

Gensim是数据源不可知的。对于它的大部分功能,它只需要一个句子列表作为文档。实际上,这些文档甚至可以由虚构的单词组成(例如,为了使用word2vec on graphs)。

对于解析维基百科转储和其他常见的语料库类型,它提供了some utility classes。检查其corpora.*API docs

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42389748

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档