无论如何，在我看来，这里的复杂部分是对象检测框架部分的存在。为了更好地理解它，尽管你可能已经这样做了，我建议阅读"RCNN三部曲“：RCNN，快速RCNN和更快的RCNN，或者至少是中间的一篇，这在这里是相关的。还请参阅关于ROI池的这个职位和这一个，后者采用dis大小类似的ROIs，并将每个ROIs映射到一个小的固定大小的功能地图上。

体系结构的其余部分主要是标准的卷积层，您大概已经熟悉这些层了。不过，回顾一下ResNet可能是有用的，因为这里使用了ResBlocks。管道的核心(“主干”)依赖于VGG网络；本文的参考文献24和41对其使用作了更详细的说明。

不管怎么说，这是怎么回事。给出了一个带有提议的图像I (其中n=|P|)，我们首先在I上运行conv1，给出了低级别的功能地图L。然后发生了两件事：

在“顶层路径”上，L通过convi for i=2:5运行，生成一个新的功能映射L_T，然后通过P池获得ROI。这给了我们一堆建议S_1,\ldots,S_{n}，每一个都是一个特征化的图像。
在“底部路径”上，L通过两个小的conv层运行，然后ROI也池化，给出了类似的提议堆栈f_1,\ldots,f_{n}。然后由B标准ResBlocks进行处理，给出n残差r_1,\ldots,r_n。

最后，我们得到了生成器的最终输出，这是Y = (y_1,\ldots,y_n) = ( S_1 \oplus r_1,\ldots, S_n \oplus r_n ) 给出的一堆超解析的建议，其中\oplus只是表示元素级和(即大多数基于数组的语言中的S_k + r_k )。

基本上，问题是ROI集合特性对于大对象来说“看起来不错”，但是对于小对象来说很糟糕，因为后者的像素数量较少。这里的解决方法是在顶部路径中执行“标准”对象检测，但是在每个ROI的底部路径中学习一个“残留”r_j，这样当这个剩余被添加到一个小提案S_j中时，就会给出通常只出现在大型建议书中的详细信息。换句话说，我们基本上是在小型ROIs上做超分辨率来帮助探测器对小物体进行探测。

正如论文作者在标题中所写：

以及在主要文件中：

如图3所示，生成器将底层卷积层的特性作为输入，它保留了许多低级别的细节，并且为功能超级分辨率提供了信息。首先将产生的特征传递到3×3卷积滤波器中，然后再将1×1卷积滤波器传递给特征维数与“Conv5”相同的特征维数。在此基础上，引入由两个3×3卷积滤波器组成的3×3卷积滤波器组成的B剩余块，然后引入批归一化层和ReLU激活层来学习大对象和小对象之间的残差表示，作为生成模型。然后，使用学习的残差表示来增强小对象提案的“Conv5”集合的特性，通过按元素进行和操作的RoI池，生成超解析表示。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/54681

复制

相似问题

问论文“小目标感知生成对抗网”的实现
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问论文“小目标感知生成对抗网”的实现EN