我试图用张量流进行图像分类。现在我正在收集和标注训练数据,但这是相当乏味,缓慢和痛苦的。目前,用我的手收集的训练数据,我的模型大约有57%的时间在一张图片中预测正确的课程,因为他们有6个不同的类别,这显然比随机猜测做得更好。
无论如何,我想知道我的分类器在57%的时间里是否正确;用这个分类器来标记新的训练数据,以便自动收集和标注训练数据,是否可行?很明显,这些训练数据不会贴上完美无缺的标签,其实只会贴上57%左右的标签,但这是否仍然有效呢?这会不会帮助模型的准确性,不会影响它,或损害它?这似乎是一个有趣的思维实验:
如果Z是标记新训练数据的分类器的精度,N是我们所拥有的训练数据示例的数目,G是我们模型在应用于新的非训练数据时的精度--当N接近无穷大时,G的极限是什么,以及它是如何依赖于Z的?
发布于 2017-05-15 22:21:45
你的方法不应该有任何好处,因为你只会训练所有你认为你已经知道的东西(你正确地训练了所有你以前可以正确预测的东西,并且你错误地训练了所有你预测错误的东西) =>,如果你用你现在的分类器自动标记,在下一次训练之后你应该得到几乎相同的分类器。
但是:通常情况下,排序/修复预先标注的数据要比完全手工标记所有数据容易得多。如果在您的任务中是这种情况,您可以使用分类器预先排序数据和check+fix手动。然后训练对分类器进行改进,=>预排序的新数据会更好,=>更少的时间去check+fix =>,更少的时间来进一步改进分类器等等。
check+fix的好工具是irfanView:
https://stackoverflow.com/questions/43988565
复制相似问题