文章/答案/技术大牛

发布

社区首页 >问答首页 >搜索数百万文档的最佳方式是什么？

问搜索数百万文档的最佳方式是什么？
EN

Stack Overflow用户

提问于 2012-11-28 18:27:16

回答 3查看 1.1K关注 0票数 0

我在一个搜索项目上工作，以建立一个搜索引擎，搜索数百万个文件，需要的帮助关于什么已经存在的最好的方式做同样的事情，起点等。我也尝试了ElasticSearch和Apache SOLR说，大约1000万个文件，但他们需要的时间是几秒钟(2-4秒)。

full-text-search

search-engine

回答 3

Stack Overflow用户

发布于 2012-11-28 20:22:55

对于数以百万计的文档和相当快的全文搜索，您将无法使用像Term Document Matrix或其他类型的inverted indexing这样的方法绕过合适的搜索引擎。

我建议阅读的全文搜索引擎基础知识，以获得最基本的想法，然后寻找一个好的库，做你需要的事情。(如果您不准备投入大量时间，我不建议您编写自己的搜索引擎。)

Stack Overflow用户

发布于 2012-11-28 21:11:10

Sphinx ( http://sphinxsearch.com/ )是另一个致力于全文搜索的软件，除了它是一个独立的服务器，具有客户端apis和多种语言的绑定之外，它具有一组与Lucene相似的功能。

一些备受瞩目的网站，如craiglist，将其用作搜索引擎，结果非常好，正如网站上所提到的：

Craigslist.org是一个免费的分类广告网站，有传言称，该网站每天会对Sphinx发起约2.5亿次查询。信不信由你，这是由15个集群的Sphinx盒子完成的，在高峰期只消耗它们总容量的1/4。

票数 1

Stack Overflow用户

发布于 2012-11-29 16:22:29

ElasticSearch是建立在Lucene之上的，它主要关注引擎的“弹性”。如果每个文档都不大，并且10M个文档可以装入内存，那么您可以考虑高级解决方案，例如SRCH2，它可以支持具有许多高级特性的毫秒级搜索。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/13602879

复制

相似问题

问搜索数百万文档的最佳方式是什么？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问搜索数百万文档的最佳方式是什么？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问搜索数百万文档的最佳方式是什么？
EN