首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >NoSQL用于搜索数百万页?

NoSQL用于搜索数百万页?
EN

Stack Overflow用户
提问于 2014-07-27 21:18:49
回答 1查看 292关注 0票数 1

我收到了公司决定删除的450万张旧文件的图片。我们正试图实现无纸化,但我面临着一个我一直无法完全理解的问题。对于这么多的数据,我一直使用SQL,但现在我只有图像。我已经购买了ABBYY精细读取器OCR,它目前正在工作的OCRing所有文件的Word或PDF。我的问题是,他们想在7到10秒内搜索大量的数据,并下载到文件原始图像的链接获得所有结果。

我读过关于NoSQL的文章,但在我看来,这并不是最好的方法,因为我必须创建一个没有任何模式的表,只需将每个图像的整个文本添加到相应的页码和原始文件的链接中。据我所知,这需要很长时间。我还能用什么其他的解决方案?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-07-28 12:55:34

要支持对文档集进行搜索,构建反向索引通常是最好的解决方案。在这里,我假设您希望支持全文快速搜索操作,如谷歌、必应等提供的.但根据你的数据。

构建反向索引通常涉及将文档拆分成单词,并将它们单独添加到反向索引中。每个索引条目将包括一个作为键的单词,以及文档名称(或文档的其他标识符),以及文档中单词作为值的位置。

您可以手动完成此操作,但是解析文档、提取单词、消除非重要单词并对其进行索引并不是那么简单。使用专用产品更容易。

大多数RDBMS支持扩展,提供全文索引功能。例如:

  • MySQL
  • PostgreSQL
  • 甲骨文
  • MS SQL Server
  • IBM DB2

一般来说,这些RDBMS扩展比专用引擎效率低。我推荐下列产品之一:

  • ElasticSearch,基于Lucene的
  • 阿帕奇索尔,基于Lucene的
  • 狮身人面像

我认为这些产品中的任何一个都可以索引数百万份文档。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24985759

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档