我在数字识别方面有点问题。在特征提取部分,我必须使用一些卷积掩码(如此link中的图4.23 )来获得特征映射和输出。但是,我不知道我需要什么样的口罩和如何获得口罩?(在一些论文中,可能他们使用了Back-Propagation,但我不知道如何使用它)您能向我展示这一部分中使用的一些口罩吗,或者如何获得它们?非常感谢!欢迎任何建议!
发布于 2011-12-05 11:04:36
反向传播是关于在设置体系结构之后训练神经网络。我从来没有用过神经网络来解决数字识别问题,但这里有一个关于手写数字识别的链接:link。它有一些代码示例。
祝好运。
发布于 2017-06-12 18:20:28
在CNN中,你通常有一张2D图像作为输入数据,比如MNIST中的黑白28x28x1 (水平,垂直,通道)数字。
然后创建一个2d内核(例如3x3内核),它使用定义的跨度(每一步水平/垂直移动多少像素)和填充(多少个值为0的像素添加到所有边,以使滑动内核中心能够在到达图像边界时覆盖图像的每个像素)在输入图像像素上滑动。
比如说用过的Kernel=3x3,Padding=1,Stride=1。
该核在滑动时应用于卷积,也将生成28x28图像,其中每个像素是核与输入图像的不同区域的卷积。
如果不是只创建一个内核,而是创建16个内核,那么在卷积之后,您将获得16个28x28图像,每个图像代表图像的不同“模式”。“模式”是每个内核内部的内容。
通过监督训练中的反向传播,CNN将自动学习要放入每个内核中的值。例如,一个内核的格式可以是
000
111
000
这意味着它将检测水平线。
我认为内核就是你所说的掩码。
最后,可以将所有16个28x28图像连接起来,形成一些特征,这些特征可以用作完全连接层的输入,以获得分类输出。
请注意,这种解释非常简单,因为它跳过了一些段落(深度卷积、池化等)。但我希望这将足以消除您的疑虑。
https://stackoverflow.com/questions/8380523
复制相似问题