背景:我正在学习CNN的课程之外,我的本科课程的ML。我有几个关于CNN的问题。
( 1)当我们训练CNN时,我们想要严格限制/裁剪所需课程的图像,对吗?也就是说,如果我们试图识别狗,我们将使用成千上万的图像,紧切的狗。我们也会喂非狗的图片,对吗?这些图像被缩放到特定的大小,即255x255。
2)假设训练已经完成。我们的模型似乎足够精确,没有问题。从这里开始,让我们有一个大的,高清图像,一只没有遮挡的狗跑过一个领域与各种障碍。对于一个典型的NN和一些数据,我们只需要使用模型,用一些输入横过它,然后它就会输出一些类。CNN将如何看待这张大图片,然后“找到”那只狗?我们是否对图像运行某种类型的预处理来对其进行分区,并输入分区?
发布于 2016-11-20 03:18:09
虽然这个问题可以有一个非常详细的解释,但我会尽量让你理解更少的单词。
1)将图像裁剪到特定大小不是必要条件,缩放也不是必要条件。但是这样说,狗是用B&W图像还是RGB图像来表示并不重要,因为卷积网络学习图像中与颜色无关的特征。缩放和调整大小有助于限制0到1之间像素的值。
2)一旦你训练了你的CNN模型,它就学会了所有的特征,如边缘等,以识别图像中的一只狗。因为模型已经学会了这些特征,所以它获得了某些特性,比如平移不变性,这意味着无论你在图像中将狗定位在哪里,它仍然是一只狗,并且具有相同的特征。模型是如何识别的?它检查狗的特征,在训练期间学习,无论新形象的大小或狗在图像中的位置或狗正在做什么。
为了深入了解,您可以参考以下资源:
http://neuralnetworksanddeeplearning.com/chap6.html
http://cs231n.github.io/convolutional-networks/
发布于 2022-01-31 18:34:07
虽然我有点犹豫回答,考虑到我认为自己是一个初学者,我认为我有一些东西可以提供,所以会尽我最大的努力。在过去的一年半时间里,我一直在努力学习,并且已经建立了自己的Feed Forward、完全连接和卷积网络解决程序,所以我不是一个绝对的初学者。好的,这是我对这个问题的输入。虽然CNN确实提供了一些翻译上的不变性,但当CNN接受训练时,只在图像中的某个地方给一只狗喂食一张大图像,将无法正确地解决OP所面临的问题。操作直觉是正确的,有一个预处理阶段。这是关于我的知识范围,也是在一个课程中学习这些技术。查找R(带有CNN特征的地区)网络。有很多种技术,一种叫做分割。将图像分割成较小的区域,并使用各种计算机视觉技术,如HOG (梯度直方图),对是否为感兴趣区域(ROI)进行“弱”估计,即包含感兴趣的对象。这些区域中的每一个都被传递给经过训练的CNN,以确定它所训练的对象是否在图像中。显然,最初的R-CNN网络将通过平均2000罗伊斯找到一个物体.更快的R-CNN做了改进。
https://datascience.stackexchange.com/questions/15236
复制相似问题