我正在研究一个CNN模型,它可以对图像进行分类。在从Internet上抓取图像文件之后,我发现其中许多文件看上去并不像搜索关键字所描述的那样(例如,关键字=‘dog’,但是图像中没有包含狗)。因此,我手动清理了我的数据集,这是相当耗费人力和时间的。
我的方法是正确的,还是有什么工具或方法可以清除图像数据?实际上,这听起来很有争议,因为这个清洁工具应该为模型的构建做些什么--对图像进行分类。
发布于 2020-01-10 15:24:56
发布于 2020-01-10 14:06:25
一种可能的方法是使用经过预先训练的模型来标记你刮过的照片,看看它们是否包含狗的照片。然后,为了保持简单,使用它作为一个粗略的过滤器,看看个人的照片是否适合你的模型。
如果您的任务非常具体,可能很难找到经过预先培训的图像识别模型:另一种方法是手动标记您的第一条~100条记录或其他任何东西,这样它们就有了值得信任的标签。然后,你可以积极地增加这些图像,直到你有一个合理的数量,并训练一个分类器来预测“狗在图片中存在,而不是狗在图片中”然后使用这个小的,简单的模型作为你的“粗糙过滤器”来决定在你的更大,更复杂的建模数据中包含哪些图像。
https://datascience.stackexchange.com/questions/66272
复制相似问题