首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在Lucene中高效地返回所有查询命中的字段

在Lucene中高效地返回所有查询命中的字段
EN

Stack Overflow用户
提问于 2013-05-22 05:00:41
回答 1查看 1.5K关注 0票数 3

我有一个相当大的lucene索引,查询可以命中大约5000个文档。我将我的应用程序元数据存储在lucene中的一个字段中(除了文本内容),并且需要快速到达这个小的元数据字段,以获得所有5000个命中。目前,我的代码看起来像这样:

代码语言:javascript
复制
MapFieldSelector field = new MapFieldSelector("metaData");
ScoreDoc[] hits = searcher.search(query, null, 10000).scoreDocs;
for (int i = 0; i < hits.length; i++) {
    int index_doc_id = hits[i].doc;
    Document hitDoc = searcher.doc(index_doc_id, field); // expensive esp with disk-based lucene index
    metadata = hitDoc.getFieldable("metaData").stringValue();
}

然而,这是非常慢的,因为每次调用searcher.doc()都非常昂贵。是否有一种方法可以对所有可能响应更快的命中进行“批处理”获取字段?或者有没有其他更快的方法?( ScoreDoc中唯一的东西似乎是Lucene文档id,我知道它不应该被依赖。否则,我将自己维护一个Lucene文档id ->元数据映射。)谢谢!

更新:我现在尝试使用FieldCache,如下所示:

代码语言:javascript
复制
String metadatas[] = org.apache.lucene.search.FieldCache.DEFAULT.getStrings(searcher.getIndexReader(), "metaData");

当我打开索引时,在查询时:

代码语言:javascript
复制
int ldocId = hits[i].doc;
String metadata = metadatas[ldocId]; 

这对我来说工作得很好。

EN

回答 1

Stack Overflow用户

发布于 2013-05-22 06:08:57

要提高性能,最好的办法是尽可能减少存储的数据。如果索引中存储了较大的内容字段,则将其设置为仅对其进行索引而不是对其进行存储将提高性能。将内容存储在Lucene外部,以便在索引中找到命中后获取,通常是一个更好的想法。

还有一种可能性,那就是有一种更好的方法来达到你想要的最终结果。我猜5000组元数据不是这里的最终结果。在Lucene中,您的分析可能更容易在索引数据上处理,而不是先从索引中取出所有数据。根据您提供的内容,不知道这在您的情况下是否可行,但肯定值得一看。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16679416

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档