我正在实施YOLO网络,并有一些问题。在原纸中,作者说:“对于预训练,我们使用图3中的前20个卷积层,然后是一个平均池层和一个完全连接的层”。他们还报告说,他们使用ImageNet 1000类数据集和224x224输入大小,而不是使用448x448。

我的问题如下:
1)平均池层内核的大小是多少?
2)作者如何将输入大小缩小到224x224?他们省略了第一层吗?
发布于 2018-11-13 15:04:59
1)使用平均池层(至少在这里)的目标是在它之后有一个向量。这样你就有了一个完全连接的图层矢量。
在Yolo中,之前完全连接的层似乎是7x7x1024。下一个层,完全连接的层是4096 (或1x1x4096)。这意味着您需要一个内核为7x7的平均池层和4096个过滤器(7x7x4096)。
也许是亚历克西斯·库克( Alexis )的“看全球平均池的解释”( look )。
2)我不太明白你的第二个问题,所以如果我回答错了,可以发表评论:
224x224的维度用于网络的预培训。首先,他们用imagenet训练他们的网络进行图像分类,就像VGG、Inception或densenet这样的网络。培训完成后,他们在开始时添加一个新层,输入大小为448x448。他们再次用这个新的图层训练网络来进行图像识别。
https://datascience.stackexchange.com/questions/41166
复制相似问题