我刚刚得知这个社区更适合我的所以问题。我想知道我是否可以使用Milvus或Faiss (L2、IP或.)根据距离将文档分类为相似或不相似。我有来自新闻文章的矢量化文本,并存储在Milvus和Faiss中,尝试这两种方式。我不想做的是在每次添加新文章嵌入时重新训练模型,并且必须担心数据集的平衡,是否必须更改LR等等。
我希望存储嵌入,并为我正在阅读的每一篇新文章返回Top1结果,如果距离“接近”,请将这篇新文章保存到Milvus/Faiss,否则丢弃。从您的角度来看,这是一种可以接受的文本二进制分类方法吗?如果是DistilBert嵌入,那么震级(L2)是一个更好的度量或定位(IP)吗?
当我说“接近”,这不是一个工作的生产想法,我无法思考,或找不到其他人在网上解释,我希望“接近”的准确性是一些大概的门槛.

作为一个余弦相似例子(Figure1),如果Milvus/Faiss DB中存在OA和OB,并且我使用新的嵌入OC搜索,我将得到OB最接近OC的值为0.86,如果保持的阈值为> 0.51,则保持0C。
作为一个L2例子(Figure1),如果A‘和B’存在于我的Milvus/Faiss DB中,而我搜索C‘的阈值为< 10.5,我会拒绝C’,因为B‘在20.62最接近C’。
发布于 2023-02-02 16:58:07
这是你问题的两个层次:
https://datascience.stackexchange.com/questions/118243
复制相似问题