文章/答案/技术大牛

发布

社区首页 >问答首页 >YOLO算法-理解训练数据

问YOLO算法-理解训练数据
EN

Data Science用户

提问于 2018-12-12 16:33:36

回答 1查看 1.5K关注 0票数 3

我在古瑟拉上学习“卷积神经网络”，这是由安德鲁·吴教授的。我在第三周，对YOLO算法感到困惑。我查看了coursera上的课程论坛，但我仍然不清楚，似乎很多人都对此感到困惑。

培训数据是什么？所有的图像和物体在其中的位置？所以对于一幅图像，如果其中有一辆车和一个人，那么输入就是图像的矢量表示，中心的位置(x，y)，两个物体的高度和宽度，以及每个框中包含的对象代码。因此，在图像的总矢量表示中，两个中心的+4坐标+2个盒子的高度和宽度+2个目标代码--一个用于人，一个用于汽车。对吗？
测试数据是什么？测试图像的矢量表示？本课程讨论如何将图像分割成s_s网格。我最初认为，来自s_s网格的一个小方格作为输入输入。但我认为情况并非如此。整个图像必须被喂食。是这样吗？
S的方格是如何使用的?S网格是如何使用的？
训练图像和测试图像的大小必须相同吗？他们所说的“汽车检测数据集有720x1280图像，我们已经将其预处理为608x608图像”。第三周的任务？

更新1

如果一个序列图像有2个对象，最大类为3，那么输入是图像+ 8*2输入向量的向量表示吗？
输入向量的长度会根据单个图像中的对象而变化吗？
我仍然不清楚s_s网格是如何使用的。如果在图像中间有一辆大车，而YOLO从图像中心从s_s网格看一个小方格，那么就不可能检测到有一辆汽车。我们必须提供更大的广场从中心到YOLO，以使它了解有一辆汽车。那么给一个小方格喂食有什么用呢？
我们怎样才能养活一个更大的正方形呢？
S的馈电正方形过程是否在多重卷积层后发生(所以基本上一个较小的方格代表了更大的面积)？
您有图像及其收缩版本的示例吗？他们的一些数据科学在萎缩吗？

-更新2

我读了答案，又看了一遍录像，但仍然不清楚。

2.输入向量的长度将根据单个图像中的对象而变化？例如，如果image1有5个对象，那么输入的长度将比只有1个对象的图像长得多。在输入不是固定宽度的情况下，我们如何输入这类数据？我们是否找到了具有最大对象的图像，并决定了输入的长度，对于其余的图像，我们只需填充0(使输入向量具有相同的长度)吗？

我仍然对ss网格感到困惑。一开始我问，S的方格是怎么用的?S网格是怎么用的？

阅读了下面的答案后，我更新的问题是，我仍然不清楚如何使用ss网格。如果图像中间有一辆大车，而YOLO从图像中心从ss网格看一个小方格，那么就不可能检测到有一辆汽车。我们必须提供更大的广场从中心到YOLO，以使它了解有一辆汽车。那么给一个小方格喂食有什么用呢？

答案(在原始答案的注释中)说，3:网格单元格不包含整个边界框，而只包含边界框的中点。

我的困惑是:根据前面的讨论，我们不会单独地为网格单元提供信息。我们只提供一次整个图像。那么创建ss网格的意义是什么。如果图像只看一次，那么算法如何检测到两个物体--一辆大车和一辆小车？我们创建网格，网格只用于查找对象的中点。但是整个物体都被识别出来了。我对这部分还不清楚。

我觉得我不是唯一一个很难理解YOLO的人。我在课程的评论部分看到多个线程在问类似的问题，我希望有耐心和指导。

neural-network

deep-learning

yolo

回答 1

Data Science用户

发布于 2018-12-21 02:42:32

对于每个需要的边框
- p_c：任何对象/无对象(背景)
- b_x，b_y，b_w，b_h：x，y，边框的宽度和高度
- c_i：对象I/无对象i

例如，对于2个边框和3个类别(如汽车、人、交通灯)，输入向量如下(括号中的上标表示包围框的索引)

\begin{bmatrix} p_{c}^{(1)}\\ b_{x}^{(1)}\\ b_{y}^{(1)}\\ b_{w}^{(1)}\\ b_{h}^{(1)}\\ c_{1}^{(1)}\\ c_{2}^{(1)}\\ c_{3}^{(1)}\\ p_{c}^{(2)}\\ b_{x}^{(2)}\\ b_{y}^{(2)}\\ b_{w}^{(2)}\\ b_{h}^{(2)}\\ c_{1}^{(2)}\\ c_{2}^{(2)}\\ c_{3}^{(2)}\\ \end{bmatrix}

整个图像被输入到模型中。这就是为什么YOLO这么快的原因。它只看一次整个图像。
这是CNN做的。基本上，卷积的每一部分对应于网格单元。例如，图像中的右上单元格将对应于每个层中过滤器的右上部分。这是在这个图像的左边可视化的：

是的必须有同样的尺码。这是大多数CNN所期望的。训练集中的所有图像必须具有相同的大小，测试集的图像也必须相同。图像被缩小并变形成一个大小为608x608的正方形。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/42509

复制

相似问题

问YOLO算法-理解训练数据
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问YOLO算法-理解训练数据EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问YOLO算法-理解训练数据
EN