我在试着复制一篇论文的结果。本文是一种用于图像去噪的U-网。因此,基本上,我有一个简单的U-网,我把有噪声的数据作为输入,并将数据去噪作为想要的输出(使用l2/MSE损失)。因此,在这篇论文和大多数类似的论文(医学影像的深度学习)中,他们说他们运行了大约300个年代的模型,或者说他们运行了大约50个小时。我的问题是,他们不应该为验证损失打回电话,所以一旦验证损失停止改进,他们就停止了培训,否则模型会变得非常适合?在一个时代里,批次的数量也很重要。如果由于内存限制,我每个时期使用两个批处理大小,这会不会是一种糟糕的做法?
发布于 2019-07-04 21:31:27
使用验证损失来确定何时停止迭代是一个很好的策略,当您有大量的标签培训数据。然而,在医学方面,通常情况下,标签数据是昂贵的和/或难以获得。你提到你只有1000个样本--这是一个很小的数据,用来训练一个深网!留出100或200个图像形成一个验证集可能会损害模型。您可以使用验证集来估计您应该训练多少个时代,然后在整个数据集上对该多个时代进行培训。
关于批处理大小查询:我建议使用32到128张图片的较小批处理大小。根据我的经验,当使用较小的批处理大小时,网络会更快地收敛。
https://datascience.stackexchange.com/questions/55093
复制相似问题