问如何在弹性搜索中索引文档？
EN

Stack Overflow用户

提问于 2021-06-05 02:43:53

回答 1查看 40关注 0票数 1

我有几百万(pdf，docx，doc)文件，每个文件可能包含大约2-4页的文本。

我的问题是，我有一个用例，在这个用例中，我有一个文档，我想从这数百万个文件中获得类似的文档。(即，将一个文档与所有其他文档进行匹配，并获得n个匹配)

我可以使用elastic-search吗?它是可扩展的吗？在这种情况下，我应该如何索引文档？我是否只是从pdf文档中提取文本并将其存储在json对象中，然后使用elastic search将其作为文档插入到索引中。

这是最有效的解决方案吗？

python

elasticsearch

回答 1

Stack Overflow用户

发布于 2021-06-14 15:47:24

您可以使用filebeat代理( ELK Stack的一部分)将其安装到生成文件的源服务器中。它可以将所有文档导出到kafka topic (以便保留)。在Elastic中，您可以创建管道来拉取、解析、匹配和转换您想要执行的数据。您还可以基于group-id创建多个管道，以便每个新的管道可以再次提取相同的数据集，并基于新的逻辑进行解析/匹配/转换。它是可扩展的，并且面向未来是可靠的。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67842515

复制

相似问题

问如何在弹性搜索中索引文档？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在弹性搜索中索引文档？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在弹性搜索中索引文档？
EN