首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >全文检索优化技术

全文检索优化技术
EN

Stack Overflow用户
提问于 2011-06-29 06:27:08
回答 2查看 612关注 0票数 3

我有一本300000+ words的书。

每个单词都有元数据(语法信息;分析细节和词根形式)

什么是组织数据的最好方法,以便我可以搜索单词或词组,并快速获得结果。我希望能够搜索与元数据的要求以及。

我需要能够搜索精确的短语或仅搜索彼此接近的单词。

我的问题是关于数据库设计和查询方法。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-06-29 10:13:43

在这种情况下,我强烈推荐Rabin-Karp算法。虽然Rabin-Karp没有其他一些搜索算法那么快,但它在匹配多个模式方面表现出色,而且因为你说过你将搜索多个短语和词条,所以它是最合适的。平均和最好的情况都是用O(n + m)表示的,其中n是300,000个单词的组合长度,m是要搜索的模式的总长度。在最坏的情况下,你遇到了O(mn)时间。

就存储数据而言,您将使用大型散列滚动表,或者更理想的情况是使用bloom filter

这里有一些相关的问题、文章和C和ruby实现。希望这能有所帮助。

票数 2
EN

Stack Overflow用户

发布于 2011-06-29 06:29:45

起始点是使用Lucene+Solr设置和索引您已有的数据。

下面是一个示例教程:http://lucene.apache.org/solr/tutorial.html

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6513807

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档