这里是ElasticSearch新手。我有一组文本文档,我已经通过Python使用ElasticSearch对其进行了索引。现在,我想用Python和scikit学习文档进行机器学习。我需要完成以下工作。
我很难想出正确的方法来解决这个问题,而且ElasticSearch似乎没有任何简单的实现。
例如,我可以从ES中检索未分析的文档,然后用Python处理文档,但是我想使用ES的分析器。每次从ES查询一组文档时,我都可以使用ES的分析器,但这似乎要做两次,因为它应该已经被分析并存储在索引中。或者,我认为我可以告诉ES检索每个文档的术语向量,并从每个文档的结果中手动提取令牌和计数,然后在给定标记和计数的情况下手动对TDM进行编码。这似乎是到目前为止我能想到的最直接的方式。
是否有更简单或更直接的路径可以将被分析文本的TDM从ES索引转到Python以处理机器学习包?
发布于 2015-08-07 01:04:42
最近,我添加了一个教程,说明我是如何使用Python完成这一工作的。
在阅读本教程之后阅读:
如果你正在做一些大规模的事情,我建议你去看看Apache Spark。稀疏矩阵可以作为火花的MLlib's RowMatrix RDD的输入。很快就会有Python支持的,我想是的。
https://stackoverflow.com/questions/30588528
复制相似问题