我有一本300000+ words的书。
每个单词都有元数据(语法信息;分析细节和词根形式)
什么是组织数据的最好方法,以便我可以搜索单词或词组,并快速获得结果。我希望能够搜索与元数据的要求以及。
我需要能够搜索精确的短语或仅搜索彼此接近的单词。
我的问题是关于数据库设计和查询方法。
发布于 2011-06-29 10:13:43
在这种情况下,我强烈推荐Rabin-Karp算法。虽然Rabin-Karp没有其他一些搜索算法那么快,但它在匹配多个模式方面表现出色,而且因为你说过你将搜索多个短语和词条,所以它是最合适的。平均和最好的情况都是用O(n + m)表示的,其中n是300,000个单词的组合长度,m是要搜索的模式的总长度。在最坏的情况下,你遇到了O(mn)时间。
就存储数据而言,您将使用大型散列滚动表,或者更理想的情况是使用bloom filter。
这里有一些相关的问题、文章和C和ruby实现。希望这能有所帮助。
发布于 2011-06-29 06:29:45
起始点是使用Lucene+Solr设置和索引您已有的数据。
下面是一个示例教程:http://lucene.apache.org/solr/tutorial.html
https://stackoverflow.com/questions/6513807
复制相似问题