我正试图在更快的rcnn中理解区域提案网络。我明白它在做什么,但我仍然不明白训练到底是如何工作的,尤其是细节。
让我们假设我们使用的是VGG16 16的最后一层,其形状为14x14x512 (在maxpool之前和228x228图像之前)和k=9不同的锚点。在推理时,我想预测9*2类标签和9*4包围盒坐标。我的中间层是一个512维向量。(图片显示256来自ZF网络)

他们在报纸上写的
我们在图像中随机抽样256个锚,以计算一个小批量的损耗函数,其中采样的正锚和负锚的比率高达1:1
这是我不确定的部分。这是否意味着对于9(k)锚类型中的每一种,特定的分类器和回归器都使用只包含该类型的正锚和负锚的小批进行训练?
这样的话,我基本上可以在中间层训练k个不同的网络,共享权重?因此,每一小批将包含训练数据x=the 3x3x512滑动窗口的conv特征地图和y=the地面真相为该特定锚类型。在推理的时候,我把它们都放在一起。
谢谢你的帮助。
发布于 2017-08-03 08:23:14
不完全同意。据我所知,RPN预测每个特征映射的WHk边界框,然后根据1:1标准随机抽取256个,并将它们作为计算该特定小批的损失函数的一部分。你仍然只训练一个网络,而不是k,因为256个随机样本不是任何特定类型的。
免责声明:我是在一个月前才开始了解CNN的,所以我可能不明白我认为自己理解了什么。
https://stackoverflow.com/questions/45354103
复制相似问题