我收到了公司决定删除的450万张旧文件的图片。我们正试图实现无纸化,但我面临着一个我一直无法完全理解的问题。对于这么多的数据,我一直使用SQL,但现在我只有图像。我已经购买了ABBYY精细读取器OCR,它目前正在工作的OCRing所有文件的Word或PDF。我的问题是,他们想在7到10秒内搜索大量的数据,并下载到文件原始图像的链接获得所有结果。
我读过关于NoSQL的文章,但在我看来,这并不是最好的方法,因为我必须创建一个没有任何模式的表,只需将每个图像的整个文本添加到相应的页码和原始文件的链接中。据我所知,这需要很长时间。我还能用什么其他的解决方案?
发布于 2014-07-28 12:55:34
要支持对文档集进行搜索,构建反向索引通常是最好的解决方案。在这里,我假设您希望支持全文快速搜索操作,如谷歌、必应等提供的.但根据你的数据。
构建反向索引通常涉及将文档拆分成单词,并将它们单独添加到反向索引中。每个索引条目将包括一个作为键的单词,以及文档名称(或文档的其他标识符),以及文档中单词作为值的位置。
您可以手动完成此操作,但是解析文档、提取单词、消除非重要单词并对其进行索引并不是那么简单。使用专用产品更容易。
大多数RDBMS支持扩展,提供全文索引功能。例如:
一般来说,这些RDBMS扩展比专用引擎效率低。我推荐下列产品之一:
我认为这些产品中的任何一个都可以索引数百万份文档。
https://stackoverflow.com/questions/24985759
复制相似问题