01 Alex-Net 网络模型 Alex-Net 是计算机视觉领域中首个被广泛关注并使用的卷积神经网络,特别是 Alex-Net 在 2012 年 ImageNet 竞赛 中以超越第二名 10.9个百分点的优异成绩一举夺冠 Hinton 提出,网络名“Alex-Net”即 取自第一作者名。 关于 Alex-Net 还有一则八卦:由于 Alex-Net 划时代的意义,并由此开启了深度学习在工业界的应用。 下表列出了 Alex-Net 网络的架构及具体参数。 单在网络结构或基本操作模块方面,Alex-Net 的改进非常微小,构建网络的基本思路变化不大,仅在网络深度、复杂度上有较大优势。 ? 图1 Alex-Net 网络结构 Alex-Net 网络架构及参数 ? ? 不过仍需指出 Alex-Net 的几点重大贡献,正因如此,Alex-Net 方可在整个卷积神经网络甚至连接主义机器学习发展进程中占据里程碑式的地位。
正文部分系《解析卷积神经网络——深度学习实践手册》基础理论篇部分,本次将详细介绍卷积神经网络中经典网络模型案例分析,包括Alex-Net、VGG-Nets、Network-In-Network、残差网络模型 1 Alex-Net 网络模型 •历史由来 Alex-Net由加拿大多伦多大学的Alex Krizhevsky, Hya Sutskever (G. Hinton提出,网络名“Alex-Net”即取自第一作者。 关于Alex-Net还有一则八卦:由于Alex-Net划时代的意义,开启了深度学习在工业界的应用,2015年Alex和工lya两位作者连同“半个”Hinton被Google重金(据传高达3500万美金) •网络结构 Alex-Net的网络结构共含五层卷积层和三层全连接层。Alex-Net的上下两支是为方便同时使用两片GPU并行训练,不过在第三层卷积和全连接层处上下两支信息可交互。
01 Alex-Net 网络模型 Alex-Net 是计算机视觉领域中首个被广泛关注并使用的卷积神经网络,特别是 Alex-Net 在 2012 年 ImageNet 竞赛 中以超越第二名 10.9个百分点的优异成绩一举夺冠 Hinton 提出,网络名“Alex-Net”即取自第一作者名。 关于 Alex-Net 还有一则八卦:由于 Alex-Net 划时代的意义,并由此开启了深度学习在工业界的应用。 下表列出了 Alex-Net 网络的架构及具体参数。 其在网络结构或基本操作模块方面,Alex-Net 的改进非常微小,构建网络的基本思路变化不大,仅在网络深度、复杂度上有较大优势。 ? 图1 Alex-Net 网络结构 Alex-Net 网络架构及参数 ? ? 不过仍需指出 Alex-Net 的几点重大贡献,正因如此,Alex-Net 方可在整个卷积神经网络甚至连接主义机器学习发展进程中占据里程碑式的地位。
,并指出了Alex-net的一些不足,最后修改网络结构,使得分类结果提升。 参数设置,除了把bias全部设置为0外(Alex-net为了让ReLU尽可能多的提取特征,把一些bias设置为1),其他都和Alex-net一样。 通过可视化Alex-net网络的第1,2层(图中的b和d),发现了各种问题。 本文在只用ILSVRC2012数据集的情况下,单个网络获得了16.5%的识别率;超越Alex-net网络1.7%。 变化Alex-net结构: ? 本文单个网络比Alex-net提高了1.7%,感觉并不单单是改变filter大小和间隔这两个因素决定,因为作者的参数设置,连接方式都和Alex-net有改变,感觉都有共享。
VGGnet相比于Alex-net而言,具有更小的卷积核,都是3x3的,而Alex-net卷积核较大(11x11,7x7,5x5)。
Hinton等人凭借卷积神经网络Alex-Net力挫日本东京大学、英国牛津大学VGG组等劲旅,且以超过第二名近12%的准确率一举夺得该竞赛冠军,霎时间学界业界纷纷惊愕哗然。 不过有趣的是,图4为Alex-Net网络结构,可以发现在基本结构方面它与十几年前的LeNet几乎毫无差异。 图4 Alex-Net结构
就算识别速度很快,然而人的速度越快,错误率可能就越高,所以这个 LeNet 就被应用于手写数字的字符识别,并且错误率只有 1%,可大规模进行运用; • 2012 年,Hinton 团队提出卷积神经网络 Alex-net 这是因为 Alex-net 第一次用到了 ReLU 激活函数、最大池化、DROP Out 以及 GPU 加速这些新技术; • 2014 年,Google 提出 Inception-net,里面的核心思想就是可反复堆叠的高效卷积神经网络结构 ,将错误率降到了 Alex-net 的一半; • 2015 年,微软的 ResNet 成功训练了 152 层的深层次网络。
就算识别速度很快,然而人的速度越快,错误率可能就越高,所以这个 LeNet 就被应用于手写数字的字符识别,并且错误率只有 1%,可大规模进行运用; • 2012 年,Hinton 团队提出卷积神经网络 Alex-net 这是因为 Alex-net 第一次用到了 ReLU 激活函数、最大池化、DROP Out 以及 GPU 加速这些新技术; • 2014 年,Google 提出 Inception-net,里面的核心思想就是可反复堆叠的高效卷积神经网络结构 ,将错误率降到了 Alex-net 的一半; • 2015 年,微软的 ResNet 成功训练了 152 层的深层次网络。
特殊的数据扩充方式 Fancy PCA Alex-Net作者提出的数据扩充方法。 监督式数据扩充 国内海康威视研究院提出了一种监督式-利用图像标记信息-的新型数据扩充方式。
研究团队在改良的 Alex-Net 神经网络的基础上,建立了实验室条件下的冲击锤测试,以便让 SHMnet 准确识别 10 种损坏情况下,钢框架上连接螺栓的细微状况变化。
R-CNN算法要求输入卷积网络用来提取特征的子图像尺寸固定,比如Alex-Net就要求输入的图像大小为固定的224像素×224像素,而SPP-Net算法则去掉了这一限制。
本文是纽约大学Yann LeCun团队中Pierre Sermanet ,David Eigen和张翔等在14年发表的一篇论文,本文改进了Alex-net,并用图像缩放和滑窗方法在test数据集上测试网络 Fast模型改进: 1,不使用LRN (Local Response Normalization); 2,不使用over-pooling使用普通pooling; 3,第3,4,5卷基层特征数变大,从Alex-net S=2或3; 3,第一个卷基层的间隔从4变为2(accurate 模型),卷积大小从11*11变为7*7;第二个卷基层filter从5*5升为7*7; 4,增加了一个第三层,是的卷积层变为6层;从Alex-net
注:因为选择的是Alex-Net, conv5得到的feature map大小是13 13 256, 所以是256维向量 pooling使用max pooling,具体操作如下: 1、假设conv5输出
假如将全部OCR结果直接投入Alex-net中,会存在大量的错误数据,得到的分类器成功率将低于10%,效果很差。
假如将全部OCR结果直接投入Alex-net中,会存在大量的错误数据,得到的分类器成功率将低于10%,效果很差。
,将下图中的问题部分200*30的区域截取处理,到某知名实验室的OCR接口去识别,会得到有80%准确率的标记样本,这个准确率并不乐观,因此我们自己做一个问题识别器,如果直接将全部OCR识别后的样本投入Alex-net
2012年,Alex-net发起了一项(仍然远未结束)的竞赛,以解决或至少显着改善计算机视觉任务。
使用的CNN网络是之前训练好的模型,例如Alex-Net。C,S,G共用相同模型和参数。首先,需要选择合适的层数ll来计算Jcontent(C,G)。
由于 \(\alpha\) 这个单精度的缩放因子的存在,有效降低了重构误差,并首次在 ImageNet 数据集上取得了与 Alex-Net 相当的精度。
使用的CNN网络是之前训练好的模型,例如Alex-Net。C,S,G共用相同模型和参数。