首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用ElasticSearch索引在Python中创建术语文档矩阵

用ElasticSearch索引在Python中创建术语文档矩阵
EN

Stack Overflow用户
提问于 2015-06-02 06:05:32
回答 1查看 1.8K关注 0票数 4

这里是ElasticSearch新手。我有一组文本文档,我已经通过Python使用ElasticSearch对其进行了索引。现在,我想用Python和scikit学习文档进行机器学习。我需要完成以下工作。

  1. 使用ElasticSearch分析器处理文本(词干、小写等)
  2. 从索引中检索已处理的文档(或分析的令牌)。
  3. 将处理过的文档转换为术语文档矩阵进行分类(可能使用CountVectorizer在scikit-learn中)。或者,也许有某种方法可以直接从ElasticSearch中检索TDM。

我很难想出正确的方法来解决这个问题,而且ElasticSearch似乎没有任何简单的实现。

例如,我可以从ES中检索未分析的文档,然后用Python处理文档,但是我想使用ES的分析器。每次从ES查询一组文档时,我都可以使用ES的分析器,但这似乎要做两次,因为它应该已经被分析并存储在索引中。或者,我认为我可以告诉ES检索每个文档的术语向量,并从每个文档的结果中手动提取令牌和计数,然后在给定标记和计数的情况下手动对TDM进行编码。这似乎是到目前为止我能想到的最直接的方式。

是否有更简单或更直接的路径可以将被分析文本的TDM从ES索引转到Python以处理机器学习包?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-08-07 01:04:42

最近,我添加了一个教程,说明我是如何使用Python完成这一工作的。

在阅读本教程之后阅读:

如果你正在做一些大规模的事情,我建议你去看看Apache Spark。稀疏矩阵可以作为火花的MLlib's RowMatrix RDD的输入。很快就会有Python支持的,我想是的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30588528

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档