文章/答案/技术大牛

发布

社区首页 >问答首页 >基于嵌入距离的二进制分类[文本]？

问基于嵌入距离的二进制分类[文本]？
EN

Data Science用户

提问于 2023-02-02 14:53:40

回答 1查看 51关注 0票数 1

我刚刚得知这个社区更适合我的所以问题。我想知道我是否可以使用Milvus或Faiss (L2、IP或.)根据距离将文档分类为相似或不相似。我有来自新闻文章的矢量化文本，并存储在Milvus和Faiss中，尝试这两种方式。我不想做的是在每次添加新文章嵌入时重新训练模型，并且必须担心数据集的平衡，是否必须更改LR等等。

我希望存储嵌入，并为我正在阅读的每一篇新文章返回Top1结果，如果距离“接近”，请将这篇新文章保存到Milvus/Faiss，否则丢弃。从您的角度来看，这是一种可以接受的文本二进制分类方法吗？如果是DistilBert嵌入，那么震级(L2)是一个更好的度量或定位(IP)吗？

当我说“接近”，这不是一个工作的生产想法，我无法思考，或找不到其他人在网上解释，我希望“接近”的准确性是一些大概的门槛.

作为一个余弦相似例子(Figure1)，如果Milvus/Faiss DB中存在OA和OB，并且我使用新的嵌入OC搜索，我将得到OB最接近OC的值为0.86，如果保持的阈值为> 0.51，则保持0C。

作为一个L2例子(Figure1)，如果A‘和B’存在于我的Milvus/Faiss DB中，而我搜索C‘的阈值为< 10.5，我会拒绝C’，因为B‘在20.62最接近C’。

图1-中型文章

machine-learning

deep-learning

classification

word-embeddings

回答 1

Data Science用户

回答已采纳

发布于 2023-02-02 16:58:07

这是你问题的两个层次：

概念-是的，您可以对嵌入的文本文档执行近似的最近邻搜索。当数据未被标记时，您所称的二进制分类通常称为异常检测。在异常检测中，常常存在相似或不相似的阈值。
实现- Milvus是一个数据库。Faiss是一个向量库。具体的实现将取决于系统的体系结构。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/118243

复制

相似问题

问基于嵌入距离的二进制分类[文本]？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于嵌入距离的二进制分类[文本]？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于嵌入距离的二进制分类[文本]？
EN