首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >应该从测试集中删除标记为“未知”的对象吗?

应该从测试集中删除标记为“未知”的对象吗?
EN

Data Science用户
提问于 2022-11-15 14:34:50
回答 1查看 25关注 0票数 1

我使用对象检测器(yolo v5)来检测和识别水下视频中的鱼。我有一个标记的数据集,但是一些鱼很难被注释者正确识别,所以它们被标记为“未知”,而不是用物种名称。

我的本能是训练包括“未知”的课程,但要把它从测试集中删除。理由是,我们的目标是物种识别,而将“未知”鱼类识别为物种的分类器不应因此而受到惩罚。我们只对该物种的标签的准确性感兴趣。

一位同事不同意,认为训练集和测试集应该有相同的分布。

有什么想法?处理这件事最好的方法是什么?

EN

回答 1

Data Science用户

发布于 2022-11-15 17:24:22

这取决于如何定义任务,即模型的目标是什么:

  • 在标准分类中,“未知”类别没有意义,因为没有同构的“未知”类别。如果一个实例是A,但注解器只是不知道并将其标记为“未知”,那么如果这种情况经常发生,分类器就会被混淆并预测“未知”,而不是A。基本上,这个“未知”类是数据中的噪声,因此通常“未知”实例不仅会从测试集中移除,而且还会从训练集中删除。
  • 在某些任务中,人们希望分类器能够预测“未知”,即预测B而不是A的成本高于预测“未知”而不是A(例如,人工注释器将检查“未知”的情况,而不是其他的)。但是,这通常要求“未知”类有一种特殊的状态,就像“任何其他的东西”一样,它不能用常规的分类来完成,而这种分类只能预测最有可能的类。例如,单级分类可以用于此,但它要复杂得多。
票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/116191

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档