问用MongoDB实现PDF、word和文本文档的信息抽取、索引和检索
EN

Stack Overflow用户

提问于 2013-05-19 16:33:13

回答 1查看 2.5K关注 0票数 3

MongoDB是否有一个功能，我可以存储PDF、文本或. do /docx文档并搜索它们，或者在它们的内容中找到一个关键字，在两个文档之间进行匹配？

例如：

我可能需要存储一个名为“claim.txt”的文档，该文档的值为

诊断代码，简短的描述，日期和数量。

我需要存储另一个名为“physician_diagnosis.pdf”的文本，其中包含一个匹配的简短描述。

我想发出查询，在那里我可以找到任何具有匹配日期和相同诊断的文档。(例如“肺炎”，“2012年12月12日”)

如果只使用MongoDB的API就可以这样做，还是需要做一些预处理？

如果可能的话，你能给我介绍一下好的例子和文档吗？

发布于 2013-07-23 14:36:37

您的任务可能更适合像Solr (http://lucene.apache.org/solr/)这样的东西，它有许多不同文档(http://wiki.apache.org/solr/ExtractingRequestHandler)的输入。不过，您必须编写一些代码才能进行适当的提取。

MongoDB更适用于结构化数据--尽管我们称它们为文档，但这里并不是指"PDF文档“或"word文档”。它只是支持嵌套字段类型的泛型格式，我们称之为文档，而不是不允许这样做的关系数据库行。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16636911

复制

相似问题

问用MongoDB实现PDF、word和文本文档的信息抽取、索引和检索EN