问应该从测试集中删除标记为“未知”的对象吗？
EN

Data Science用户

提问于 2022-11-15 14:34:50

回答 1查看 25关注 0票数 1

我使用对象检测器(yolo v5)来检测和识别水下视频中的鱼。我有一个标记的数据集，但是一些鱼很难被注释者正确识别，所以它们被标记为“未知”，而不是用物种名称。

我的本能是训练包括“未知”的课程，但要把它从测试集中删除。理由是，我们的目标是物种识别，而将“未知”鱼类识别为物种的分类器不应因此而受到惩罚。我们只对该物种的标签的准确性感兴趣。

一位同事不同意，认为训练集和测试集应该有相同的分布。

有什么想法？处理这件事最好的方法是什么？

发布于 2022-11-15 17:24:22

这取决于如何定义任务，即模型的目标是什么：

在标准分类中，“未知”类别没有意义，因为没有同构的“未知”类别。如果一个实例是A，但注解器只是不知道并将其标记为“未知”，那么如果这种情况经常发生，分类器就会被混淆并预测“未知”，而不是A。基本上，这个“未知”类是数据中的噪声，因此通常“未知”实例不仅会从测试集中移除，而且还会从训练集中删除。
在某些任务中，人们希望分类器能够预测“未知”，即预测B而不是A的成本高于预测“未知”而不是A(例如，人工注释器将检查“未知”的情况，而不是其他的)。但是，这通常要求“未知”类有一种特殊的状态，就像“任何其他的东西”一样，它不能用常规的分类来完成，而这种分类只能预测最有可能的类。例如，单级分类可以用于此，但它要复杂得多。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/116191

复制

相似问题

问应该从测试集中删除标记为“未知”的对象吗？EN