首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于嵌入距离的二进制分类[文本]?

基于嵌入距离的二进制分类[文本]?
EN

Data Science用户
提问于 2023-02-02 14:53:40
回答 1查看 51关注 0票数 1

我刚刚得知这个社区更适合我的所以问题。我想知道我是否可以使用Milvus或Faiss (L2、IP或.)根据距离将文档分类为相似或不相似。我有来自新闻文章的矢量化文本,并存储在Milvus和Faiss中,尝试这两种方式。我不想做的是在每次添加新文章嵌入时重新训练模型,并且必须担心数据集的平衡,是否必须更改LR等等。

我希望存储嵌入,并为我正在阅读的每一篇新文章返回Top1结果,如果距离“接近”,请将这篇新文章保存到Milvus/Faiss,否则丢弃。从您的角度来看,这是一种可以接受的文本二进制分类方法吗?如果是DistilBert嵌入,那么震级(L2)是一个更好的度量或定位(IP)吗?

当我说“接近”,这不是一个工作的生产想法,我无法思考,或找不到其他人在网上解释,我希望“接近”的准确性是一些大概的门槛.

作为一个余弦相似例子(Figure1),如果Milvus/Faiss DB中存在OA和OB,并且我使用新的嵌入OC搜索,我将得到OB最接近OC的值为0.86,如果保持的阈值为> 0.51,则保持0C。

作为一个L2例子(Figure1),如果A‘和B’存在于我的Milvus/Faiss DB中,而我搜索C‘的阈值为< 10.5,我会拒绝C’,因为B‘在20.62最接近C’。

图1-中型文章

EN

回答 1

Data Science用户

回答已采纳

发布于 2023-02-02 16:58:07

这是你问题的两个层次:

  1. 概念-是的,您可以对嵌入的文本文档执行近似的最近邻搜索。当数据未被标记时,您所称的二进制分类通常称为异常检测。在异常检测中,常常存在相似或不相似的阈值。
  2. 实现- Milvus是一个数据库。Faiss是一个向量库。具体的实现将取决于系统的体系结构。
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/118243

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档