首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >图像数据的数据质量评价

图像数据的数据质量评价
EN

Data Science用户
提问于 2020-01-10 13:26:38
回答 2查看 360关注 0票数 2

我正在研究一个CNN模型,它可以对图像进行分类。在从Internet上抓取图像文件之后,我发现其中许多文件看上去并不像搜索关键字所描述的那样(例如,关键字=‘dog’,但是图像中没有包含狗)。因此,我手动清理了我的数据集,这是相当耗费人力和时间的。

我的方法是正确的,还是有什么工具或方法可以清除图像数据?实际上,这听起来很有争议,因为这个清洁工具应该为模型的构建做些什么--对图像进行分类。

EN

回答 2

Data Science用户

发布于 2020-01-10 15:24:56

我是建立在@Dylan的答案的第一部分:

对于像“狗”这样的一般项目,经过预先训练的模型是很容易获得的。一个很好的起点是ImageNet。对于这个数据集,有许多预先训练过的模型可用,例如,参见这里 for PyTorch。由于ImageNet包含给定项的多个类别,所以可以检查这份清单以查看哪些索引对应于哪些项,并定义映射(例如,狗类为151-268类)。

完成之后,手动检查标签和传输模型不一致的情况。

票数 3
EN

Data Science用户

发布于 2020-01-10 14:06:25

一种可能的方法是使用经过预先训练的模型来标记你刮过的照片,看看它们是否包含狗的照片。然后,为了保持简单,使用它作为一个粗略的过滤器,看看个人的照片是否适合你的模型。

如果您的任务非常具体,可能很难找到经过预先培训的图像识别模型:另一种方法是手动标记您的第一条~100条记录或其他任何东西,这样它们就有了值得信任的标签。然后,你可以积极地增加这些图像,直到你有一个合理的数量,并训练一个分类器来预测“狗在图片中存在,而不是狗在图片中”然后使用这个小的,简单的模型作为你的“粗糙过滤器”来决定在你的更大,更复杂的建模数据中包含哪些图像。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/66272

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档