这绝对是一个新手问题。caffe中的视频分类任务。
我有一个神经网络,我必须用视频(图像组)进行训练。我可以从几个选项中选择更改网络输入的形状。
在所有情况下,我都假设网络架构(层的排列和数量)和学习参数(LR/衰减/正则化等)是恒定的。
例如,我可以选择将我的输入作为以下内容之一提供给网络。
1) batch_size x (no_of_imgs*no_of_channels) x高x宽{3维输入}
2) batch_size x no_of_imgs x no_of_channels x高x宽{4维输入}
3) batch_size x no_of_channels x no_of_imgs x高x宽{4维输入}
输入形状如何影响网络的精度?
发布于 2016-05-25 21:11:51
我绝对建议你选择第二个设置。在这种情况下,您可以利用图像的不同空间和光谱属性以及不变性,这可能有助于您在使用卷积体系结构时更好地学习。在第一次设置中-大部分空间和光谱信息都丢失了。第三-少一点,但仍然可能丢失一些光谱信息,这可能会损害你的学习过程。
https://stackoverflow.com/questions/37438078
复制相似问题