我手头有一个图像检索任务。我有一个数据集,每个类没有太多的图像,所以我最终增加了数据集(类中每个图像有3个副本),并从Keras blog中获得了一些灵感。我在sklearn中使用了train_test_split方法来拆分从增强数据集生成的数据集。现在,因为这是随机拆分,所以在测试时,用于测试的图像可能是针对其自身的增强对应图像进行测试的,例如,针对其原始图像测试的翻转和轻微倾斜的图像。在这种情况下,结果有可能被扭曲吗?除了仅仅为了测试而获得新的数据之外,有没有办法克服这个问题?
发布于 2017-02-02 17:56:56
是的,这就是所谓的“泄漏”,除非数据增强转换非常激进,以至于生成的图像可能与真实的测试集相似,否则最好在进行增强之前拆分训练/测试集,并且只在训练集中进行增强。
https://stackoverflow.com/questions/41996660
复制相似问题