MongoDB是否有一个功能,我可以存储PDF、文本或. do /docx文档并搜索它们,或者在它们的内容中找到一个关键字,在两个文档之间进行匹配?
例如:
我可能需要存储一个名为“claim.txt”的文档,该文档的值为
诊断代码,简短的描述,日期和数量。
我需要存储另一个名为“physician_diagnosis.pdf”的文本,其中包含一个匹配的简短描述。
我想发出查询,在那里我可以找到任何具有匹配日期和相同诊断的文档。(例如“肺炎”,“2012年12月12日”)
如果只使用MongoDB的API就可以这样做,还是需要做一些预处理?
如果可能的话,你能给我介绍一下好的例子和文档吗?
发布于 2013-07-23 14:36:37
您的任务可能更适合像Solr (http://lucene.apache.org/solr/)这样的东西,它有许多不同文档(http://wiki.apache.org/solr/ExtractingRequestHandler)的输入。不过,您必须编写一些代码才能进行适当的提取。
MongoDB更适用于结构化数据--尽管我们称它们为文档,但这里并不是指"PDF文档“或"word文档”。它只是支持嵌套字段类型的泛型格式,我们称之为文档,而不是不允许这样做的关系数据库行。
https://stackoverflow.com/questions/16636911
复制相似问题