文章/答案/技术大牛

发布

社区首页 >问答首页 >在Lucene中高效地返回所有查询命中的字段

问在Lucene中高效地返回所有查询命中的字段
EN

Stack Overflow用户

提问于 2013-05-22 05:00:41

回答 1查看 1.5K关注 0票数 3

我有一个相当大的lucene索引，查询可以命中大约5000个文档。我将我的应用程序元数据存储在lucene中的一个字段中(除了文本内容)，并且需要快速到达这个小的元数据字段，以获得所有5000个命中。目前，我的代码看起来像这样：

MapFieldSelector field = new MapFieldSelector("metaData");
ScoreDoc[] hits = searcher.search(query, null, 10000).scoreDocs;
for (int i = 0; i < hits.length; i++) {
    int index_doc_id = hits[i].doc;
    Document hitDoc = searcher.doc(index_doc_id, field); // expensive esp with disk-based lucene index
    metadata = hitDoc.getFieldable("metaData").stringValue();
}

然而，这是非常慢的，因为每次调用searcher.doc()都非常昂贵。是否有一种方法可以对所有可能响应更快的命中进行“批处理”获取字段？或者有没有其他更快的方法？( ScoreDoc中唯一的东西似乎是Lucene文档id，我知道它不应该被依赖。否则，我将自己维护一个Lucene文档id ->元数据映射。)谢谢!

更新:我现在尝试使用FieldCache，如下所示：

String metadatas[] = org.apache.lucene.search.FieldCache.DEFAULT.getStrings(searcher.getIndexReader(), "metaData");

当我打开索引时，在查询时：

int ldocId = hits[i].doc;
String metadata = metadatas[ldocId];

这对我来说工作得很好。

lucene

indexing

回答 1

Stack Overflow用户

发布于 2013-05-22 06:08:57

要提高性能，最好的办法是尽可能减少存储的数据。如果索引中存储了较大的内容字段，则将其设置为仅对其进行索引而不是对其进行存储将提高性能。将内容存储在Lucene外部，以便在索引中找到命中后获取，通常是一个更好的想法。

还有一种可能性，那就是有一种更好的方法来达到你想要的最终结果。我猜5000组元数据不是这里的最终结果。在Lucene中，您的分析可能更容易在索引数据上处理，而不是先从索引中取出所有数据。根据您提供的内容，不知道这在您的情况下是否可行，但肯定值得一看。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16679416

复制

相似问题

问在Lucene中高效地返回所有查询命中的字段
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Lucene中高效地返回所有查询命中的字段EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Lucene中高效地返回所有查询命中的字段
EN