在Spatial Transformer Networks中,给定当前的输入特征图,定位网络的输出θ是可微的。这个θ怎么可微?
发布于 2018-09-12 05:09:30
在空间变压器网络中,定位网络的基本概念是学习应用变换找到输入的规范形式。假设网络\theta的输出是一个被传递到另一个层的激活。关键是操作的抽样序列是可微的。\theta只是一个输出,它指定了应该如何执行采样。通常采用的采样操作是双线性插值,由于floor和ceiling函数的存在,双线性插值虽然不能在所有点上都可微,但它可以对误差进行反繁殖,并且在大多数输入中都是可微的。将\theta视为激活,将其传递给双线性取样器,以更改下一个网络的输入。双线性抽样被认为是可微的。
为了更好地理解它,请考虑下面的图,它说明了空间转换器内部的过程比原始文件中的过程更容易。

很明显,\theta定位网络的输出将传递给采样网格。将采样网格乘以\theta,在原始图像中找到合适的区域。请考虑不要将\theta与原始图像相乘。原因是,如果你用原始图像相乘,一个像素就会有多个选择,而如果你用采样网格将定位网络的输出乘以,那么每个条目只有一个选择。然后,利用采样网格和原始图像进行插值,找出变换后的图像。很明显,\theta和其他激活一样。
https://datascience.stackexchange.com/questions/38117
复制相似问题