我目前正在阅读LeCun等人提出的论文。手写体邮政编码识别。下面是CNN架构的形象图。但我并不真正理解层H1和输入层之间的连接是如何有意义的。如果有12个内核大小为5x5,那么层H1不应该是12x144吗?或者这里是否也发生了抽样下降的情况?

发布于 2020-01-02 12:44:51
是的,减少了空间维度(高度和宽度):输入为16x16,H1为8x8,H2为4x4。
还请参阅体系结构部分的第一段:

来源
在现代术语中,你会说他们使用了2的步幅,这就相应地减少了空间维度。
编辑(根据您的评论)
(方形)卷积层的空间输出维O公式如下:
O = \frac{I - K + 2P}S + 1以I为输入大小,K为内核大小,P为填充,S为大步。现在,您可能会认为在您的示例O = \frac{16 - 5 + 2*2}2 + 1 = 8.5 (假设P=2)中
但是仔细看看当层H1的5x5内核以2的步调扫描16x16输入映像时,它是如何运行的:

正如你可以从浅灰区域看到的那样,所需的有效填充实际上并不是所有的2块。相反,对于宽度或高度,一边是2,另一边是1,即平均(2+1)/2=1.5。
如果你把它插入方程来计算输出大小,它给出的是:O = \frac{16 - 5 + 2*1.5}2 + 1 = 8。因此,卷积层H1将具有8x8的空间维数。
https://datascience.stackexchange.com/questions/65726
复制相似问题