我在一个集合中有多个向量字段。我的用例是在相似的上下文中找到相似的句子。句子和上下文被编码成浮动向量。因此,我有一个向量的句子和另一个向量的上下文(周围的文本)。为了找到相似的句子,我想把这两个向量都考虑进去。不幸的是,大多数近似最近邻(ann)搜索库只支持搜索一个字段。我尝试使用PostgreSQL和多维数据集扩展来过滤多个向量相似点。不幸的是,向量的数量(100米)对PostgreSQL来说太高了。
发布于 2022-02-04 19:44:43
另一种方法是将句子和上下文重新编码到同一个向量空间中。这可以用doc2vec或StarSpace来完成。
如果句子和上下文位于相同的向量空间中,那么任何近似的最近邻搜索库都可以工作。
https://datascience.stackexchange.com/questions/103768
复制相似问题