DiskBBQ 有何不同?DiskBBQ 使用层次化 K-means将向量划分为小簇。它会先选择代表性的质心进行查询,然后再查询各个向量。 我们一直在努力让 DiskBBQ 完全与 HNSW 竞争。虽然我们还没有在所有情况下达到 100% 的水平,但我们对结果感到满意。DiskBBQ 利用批量评分向量,并尽可能多地在堆外执行操作。 DiskBBQ 的两个主要场景特别有趣。第一个场景是整个索引可以放入内存中。由于这是 HNSW 性能的关键,因此看看 DiskBBQ 在这种情况下的表现是公平的。 什么时候应该使用 DiskBBQ?DiskBBQ 和 HNSW 都将在 Elasticsearch 中继续得到改进。 然而,如果您可以接受 95% 或更低的召回率,且对成本敏感,但仍然希望快速搜索,DiskBBQ 可能是您的解决方案。如何使用 DiskBBQ?
DiskBBQ:一种向量存储方法,直接从磁盘分区和搜索紧凑的聚类,消除了需要将完整索引加载到内存的需求。DiskBBQ 在大规模数据集上显著降低内存需求,同时提供优秀的查询性能和排名。 DiskBBQ:支持直接从磁盘读取量化向量的紧凑聚类,消除了将完整索引加载到内存的需求。这种设计在降低内存使用的同时保持了召回率和查询性能。
它具备标量量化、改进的二进制量化(BBQ[5])、SIMD[6]向量操作,以及更高磁盘效率的算法,如DiskBBQ[7]等,提供了高效灵活的向量工作负载管理选项。 better-binary-quantization-lucene-elasticsearch [6] SIMD: https://www.elastic.co/blog/accelerating-vector-search-simd-instructions [7] DiskBBQ : https://www.elastic.co/search-labs/blog/diskbbq-elasticsearch-introduction [8] HNSW: https://arxiv.org
receivers: [filelog] processors: [batch, transform/logs-streams] exporters: [elasticsearch, debug]DiskBBQ :向量搜索,但你的内存可以“休息”了DiskBBQ 是 HNSW 的基于磁盘的替代方案,用于对压缩向量进行 k 近邻搜索。
它具备标量量化、改进的二进制量化(BBQ)、SIMD向量操作,以及更高磁盘效率的算法,如DiskBBQ等,提供了高效灵活的向量工作负载管理选项。