我在试着理解一篇卷积神经网络中的反向传播文章
但我不能把我的头绕在图上:

第一层具有3维度32x32的功能映射。第二层具有32特征映射,其维度18x18。这怎么可能?如果一个内核5x5的卷积应用于32x32输入,则输出的维数应为$(32-5+1)$乘以$(32-5+1)$ = $28$乘$28$。
另外,如果第一层只有3个功能映射,那么第二层应该有多个3功能映射,但32不是3的倍数。
另外,为什么第三层的大小是10x10?应该改为9x9吗?前一层的尺寸为18x18,因此2x2最大池应将其减少到9x9,而不是10x10。
发布于 2018-02-27 17:37:09
实际上我猜你在第二部分搞错了。重点是在CNNs中,卷积运算是按体积进行的。假设输入图像在三个通道上,下一层有5个核,下一层将有5个特征映射,但卷积运算是由体积上的卷积组成的,具有这样的特性:每个核都有其宽度和高度,还有一个深度。它的深度等于前一层的特征映射数,这里是图像的通道。看看这里。
发布于 2018-02-27 09:18:23
这可能是一种填充物与卷积步幅相结合的情况:如果你将第一层两边有2个零,然后使用2的步幅,你最终会得到一个18 * 18 * x。输入上的3个通道很可能是RG&B,通常可以缩放到32个特征地图。
发布于 2021-05-08 05:57:52
你之所以感到困惑,是因为论文中遗漏了一些参数。假设从第一层到第二层,使用stride=2和pad=4以及32个内核,18=( 32 +2*4-5)/2-1
https://datascience.stackexchange.com/questions/28339
复制相似问题