首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用MongoDB实现PDF、word和文本文档的信息抽取、索引和检索

用MongoDB实现PDF、word和文本文档的信息抽取、索引和检索
EN

Stack Overflow用户
提问于 2013-05-19 16:33:13
回答 1查看 2.5K关注 0票数 3

MongoDB是否有一个功能,我可以存储PDF、文本或. do /docx文档并搜索它们,或者在它们的内容中找到一个关键字,在两个文档之间进行匹配?

例如:

我可能需要存储一个名为“claim.txt”的文档,该文档的值为

诊断代码,简短的描述,日期和数量。

我需要存储另一个名为“physician_diagnosis.pdf”的文本,其中包含一个匹配的简短描述。

我想发出查询,在那里我可以找到任何具有匹配日期和相同诊断的文档。(例如“肺炎”,“2012年12月12日”)

如果只使用MongoDB的API就可以这样做,还是需要做一些预处理?

如果可能的话,你能给我介绍一下好的例子和文档吗?

EN

回答 1

Stack Overflow用户

发布于 2013-07-23 14:36:37

您的任务可能更适合像Solr (http://lucene.apache.org/solr/)这样的东西,它有许多不同文档(http://wiki.apache.org/solr/ExtractingRequestHandler)的输入。不过,您必须编写一些代码才能进行适当的提取。

MongoDB更适用于结构化数据--尽管我们称它们为文档,但这里并不是指"PDF文档“或"word文档”。它只是支持嵌套字段类型的泛型格式,我们称之为文档,而不是不允许这样做的关系数据库行。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16636911

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档