在尝试使用在另一个数据集(KITTI)上训练的深度学习网络对一个数据集(Cityscapes)中的图像执行图像分割时,我意识到在主观感知的输出质量方面存在很大差异(可能在对(M)IoU进行基准测试时也是如此)。
这提出了我的问题,输入图像的大小/分辨率是否以及如何影响语义图像分割网络的输出,该网络已经在与输入图像不同的大小或分辨率的图像上进行了训练。
我从这个网络附加了两个图像及其对应的输出图像:https://github.com/hellochick/PSPNet-tensorflow (使用提供的权重)。
第一个图像来自CityScapes数据集(测试集),宽度和高度均为(2048,1024)。已使用此数据集中的训练和验证图像对网络进行了训练。
第二个图像来自KITTI数据集,宽度和高度分别为(1242,375):
正如人们所看到的,第一个分割图像中的形状被清晰地定义,而在第二个图像中,对象的详细分离是不可能的。
发布于 2018-03-10 05:32:02
一般来说,神经网络对规模的变化是相当健壮的,但它们肯定不是完美的。尽管我的头顶上没有可用的参考资料,但已经有许多论文表明,规模确实会影响准确性。
事实上,使用具有不同尺度的图像的数据集来训练您的网络几乎肯定会改善它。
此外,今天使用的许多图像分割网络都明确地将结构构建到网络中,以在网络体系结构级别上改进这一点。
由于您可能不知道这些网络是如何训练的,因此我建议您调整图像大小,使其与您正在使用的网络训练时所用的大致形状相匹配。使用正常的图像调整大小函数调整图像的大小是一个非常正常的预处理步骤。
因为您引用的图像很大,所以我还要说,无论您通过什么数据输入管道输入图像,都已经代表您调整了图像的大小。大多数这种类型的神经网络都是在256x256左右的图像上训练的。在训练或预测之前,根据需要对输入图像进行裁剪和居中。处理像这样的非常大的图像是非常计算密集型的,并且还没有发现可以提高精度。
https://stackoverflow.com/questions/49196819
复制相似问题