我最近读过RetinaNet的报纸,但我还没有理解一个次要的细节:
我们有从FPN (P2,...P7)获得的多尺度特征映射.
然后,两个FCN头(分类器头和归一化头)分别进行特征映射。
然而,由于每个特征映射都有不同的空间尺度,那么分类器头和回归头在所有卷积参数固定的情况下,如何保持固定的输出量?(即步幅为1的3x3过滤器等)。
在PyTorch的实现 of RetinaNet的这条线上,我看到头只是将每个特征转换,然后所有的特征都以某种方式堆叠起来(它们之间唯一常见的维度是通道维数为256,但在空间上它们是彼此的两倍)。
我很想听听它们是如何结合在一起的,我无法理解这一点。
发布于 2020-05-12 18:26:56
在每个金字塔步骤的卷积之后,您可以将输出重塑为(H*W, out_dim)形状( out_dim是类头的num_classes * num_anchors,4 * num_anchors是bbox的回归器)。最后,您可以沿着H*W维度连接产生的张量,这现在是可能的,因为所有其他维度都匹配,并且计算损失就像在具有单个特征层的网络上一样。
https://stackoverflow.com/questions/61736928
复制相似问题