我正在使用Weaviate的KNN引擎执行多类分类,但我不明白:
发布于 2021-12-07 09:16:37
好问题,让我一个接一个地回答:
它用的是哪种KNN?
我不太清楚你所说的“什么样”是什么意思,但我认为这将通过剩下的问题得到回答。要记住的一点是,Weaviate的kNN分类使用了特定类的现有向量索引。因此,取决于您是带了自己的向量还是使用了向量化模型,输入参数将决定分类在什么基础上运行。例如,如果在名称为text2vec的text属性上使用description模块,那么这些描述将用于查找最接近的匹配项。
它是使用简单投票还是距离加权投票?
就v1.8.0而言,这只是简单的投票。距离加权投票可能是未来的一个很好的补充。
是用余弦距离吗?
正如第一个答案中提到的,您为类选择的任何设置也将适用于分类。截止到v1.8.0,Weaviate通常使用余弦距离,但也有计划在不久的将来添加other distance metrics。
它是使用一种方法来寻找可能的邻居,还是使用蛮力来找到所有真正的近邻?
与上面类似,它遵循类的设置。通常它使用HNSW approximate index。您可以在类级别上调优其参数。
什么是输赢组,它们是如何用来预测新向量的类别的?
它们是一种工具,用来了解为什么分类会产生这样的结果。获胜组是得票最高的结果的“组”,因此导致项目被归类为这样。失败的组(可以是多个组)是没有获得最高选票的可选的“组”。了解每一组可能是一个很好的洞察力,为未来的分类调整k。
https://stackoverflow.com/questions/70253644
复制相似问题