下午好!在第一阶段,在输入卷积神经网络(输入层)时,我们接收到一个源图像(即手写英文字母的图像)。首先,我们使用一个从左到右的nxn窗口来扫描图像和在核上进行乘法(卷积矩阵)来建立特征映射。但是没有写到内核应该有什么确切的值(换句话说,关于从n*n窗口检索到的数据应该乘哪些内核值)。用于边缘检测的卷积核上的数据相乘是否合适?有大量的卷积核(Emboss,高斯滤波,边缘检测,角度检测等)?但是,没有任何地方是写到确切的内核,它需要乘数据来检测手写符号。
3核
核上乘法的卷积运算
此外,如果整个图像的大小为30*30,是否可以使用5*5的窗口来构建功能地图?是否足以达到字母检测的最佳精度?
为了达到字母识别的最大精度,最佳的方法是在哪个核上将整个图像的面积相乘?或者最初内核中的所有值都等于0?我还可以问一下,应用什么公式或规则来检测需要构建的功能地图的总体数量?或者,如果任务是在字母识别的英语语言,比在每个阶段的特征地图的建设过程中,必须有确切的25个特征地图?谢谢你的回复!
发布于 2015-07-08 13:59:08
在CNN中,卷积核是一个共享的权矩阵,并以类似于其他权重的方式学习。它是以相同的方式初始化的,具有较小的随机值,并将来自反向传播的权重增量求和到接收其输出的所有特征(即通常是卷积层输出中的所有“像素”)。
一个典型的随机核将执行有点像边缘检测器。
经过培训后,可以显示第一个CNN层,如果您熟悉图像处理,通常会学到一些可以解释的内核。
这里有一个很好的学习内核特性的动画视图:http://cs.nyu.edu/~yann/research/sparse/
简而言之,你的回答是:没有必要寻找正确的内核来使用。相反,找一个CNN的图书馆,在那里你可以设置卷积层的数量,并研究如何在他们学习的时候查看内核--大多数CNN图书馆都会有一种有记录的方法来可视化它们。
https://stackoverflow.com/questions/31289355
复制相似问题