我有一个相当大的lucene索引,查询可以命中大约5000个文档。我将我的应用程序元数据存储在lucene中的一个字段中(除了文本内容),并且需要快速到达这个小的元数据字段,以获得所有5000个命中。目前,我的代码看起来像这样:
MapFieldSelector field = new MapFieldSelector("metaData");
ScoreDoc[] hits = searcher.search(query, null, 10000).scoreDocs;
for (int i = 0; i < hits.length; i++) {
int index_doc_id = hits[i].doc;
Document hitDoc = searcher.doc(index_doc_id, field); // expensive esp with disk-based lucene index
metadata = hitDoc.getFieldable("metaData").stringValue();
}然而,这是非常慢的,因为每次调用searcher.doc()都非常昂贵。是否有一种方法可以对所有可能响应更快的命中进行“批处理”获取字段?或者有没有其他更快的方法?( ScoreDoc中唯一的东西似乎是Lucene文档id,我知道它不应该被依赖。否则,我将自己维护一个Lucene文档id ->元数据映射。)谢谢!
更新:我现在尝试使用FieldCache,如下所示:
String metadatas[] = org.apache.lucene.search.FieldCache.DEFAULT.getStrings(searcher.getIndexReader(), "metaData");当我打开索引时,在查询时:
int ldocId = hits[i].doc;
String metadata = metadatas[ldocId]; 这对我来说工作得很好。
发布于 2013-05-22 06:08:57
要提高性能,最好的办法是尽可能减少存储的数据。如果索引中存储了较大的内容字段,则将其设置为仅对其进行索引而不是对其进行存储将提高性能。将内容存储在Lucene外部,以便在索引中找到命中后获取,通常是一个更好的想法。
还有一种可能性,那就是有一种更好的方法来达到你想要的最终结果。我猜5000组元数据不是这里的最终结果。在Lucene中,您的分析可能更容易在索引数据上处理,而不是先从索引中取出所有数据。根据您提供的内容,不知道这在您的情况下是否可行,但肯定值得一看。
https://stackoverflow.com/questions/16679416
复制相似问题