我使用深度哈希模型在数据库中搜索最相似的图像(最类似于作为查询提供的图像)。我在可可数据集上这样做,该数据集每个图像都有多个标签。我想评估模型的性能,但我不确定这里应该使用哪种类型的度量。
如果它只是每幅图像的一个标签,我会追求平均精度(给定狗的查询图像,检查系统检索到多少狗图像,评估地图)。但这显然不能用于多标签任务(给定三个类的查询映像,只检索其中一个类的系统检索图像,它不是完全正确的,但也不是不正确的)。那么,是否有任何常用的指标来评估这类任务?如果是的话,请把我介绍给他们。还是我必须想出一些自己的东西(也许是一种加权地图)?
发布于 2017-12-01 12:06:00
维基百科相关文章似乎同意我的观点,并将Jaccard索引添加到混合中。
本文介绍了著名的分类链方法(READ J.等人,多标签分类分类的分类链,2009年)使用了四种不同的评估方法:一个与Jaccard距离非常相似的精度变化,一个类似变化的F1评分和一个日志丢失函数。他们使用的第四种评估方法是精确召回曲线下的区域,但我认为这是不应该使用的(见Peter关于精确召回增益曲线的工作)。
https://datascience.stackexchange.com/questions/25289
复制相似问题