关于体积卷积的一个简单问题。
假设我们有一个维数为$(n,n,3)$的图像,并且我们应用了维数$(k,k,3)$的滤波器,它输出维数$(n+1,n+1)$的矩阵。
为什么在这种情况下我们要跨渠道求和。我们不会因为混搭不同的渠道而失去信息。对于图像,这意味着在R, G, B信道中混合信息?为了前夫。当试图检测交通信号灯时,这种混合可能是致命的。
发布于 2018-08-21 13:11:40
CNN滤波器仅用于边缘检测。这些边缘基本上是由一个数学函数检测出来的,因此在更深的层次(级联函数)中变得越来越复杂,从而使它能够检测复杂的特征。
在你的问题2中,需要注意以下几点:
R,G,B频道中的哪一个是对特定颜色的贡献。而且,从直觉上说,交通信号灯不仅仅是一个信号灯。它由一个3光装置组成。考虑这一点,一个B/W图像显示给你的交通灯,其中有一个特定的颜色和颜色标签是已知的。即使你不知道颜色,你也会把颜色标签和灯泡的位置联系起来。同样的情况也会发生在CNN,如果频道对每一种颜色都有相同的值,CNN将学会从灯泡的位置识别。
发布于 2018-08-21 13:02:18
有几点我试着解释一下。
首先,对于图像的卷积网络,每个滤波器都是一个3d体。因此,每当有人说我们有$n$过滤器,就意味着我们有那些3d过滤器的$n$卷。
其次,您可以将每个卷积层看作一个MLP,它应用于输入的小区域。这些应用于输入的不同区域,以调查一个典型的模式是否在该区域。这些模式将通过成本函数来学习。您可以很容易地考虑,对于每个过滤器,也就是一个卷,具体地对加权输入进行求和,与MLP完全一样。
第三,结果是,经过训练的过滤器将决定使用成本函数根据任务选择哪些通道的信息。它们可能在一个平面上,也可能在其中的多个平面中。
https://datascience.stackexchange.com/questions/37236
复制相似问题