首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >YOLO算法-理解训练数据

YOLO算法-理解训练数据
EN

Data Science用户
提问于 2018-12-12 16:33:36
回答 1查看 1.5K关注 0票数 3

我在古瑟拉上学习“卷积神经网络”,这是由安德鲁·吴教授的。我在第三周,对YOLO算法感到困惑。我查看了coursera上的课程论坛,但我仍然不清楚,似乎很多人都对此感到困惑。

  1. 培训数据是什么?所有的图像和物体在其中的位置?所以对于一幅图像,如果其中有一辆车和一个人,那么输入就是图像的矢量表示,中心的位置(x,y),两个物体的高度和宽度,以及每个框中包含的对象代码。因此,在图像的总矢量表示中,两个中心的+4坐标+2个盒子的高度和宽度+2个目标代码--一个用于人,一个用于汽车。对吗?
  2. 测试数据是什么?测试图像的矢量表示?本课程讨论如何将图像分割成s_s网格。我最初认为,来自s_s网格的一个小方格作为输入输入。但我认为情况并非如此。整个图像必须被喂食。是这样吗?
  3. S的方格是如何使用的?S网格是如何使用的?
  4. 训练图像和测试图像的大小必须相同吗?他们所说的“汽车检测数据集有720x1280图像,我们已经将其预处理为608x608图像”。第三周的任务?

更新1

  1. 如果一个序列图像有2个对象,最大类为3,那么输入是图像+ 8*2输入向量的向量表示吗?
  2. 输入向量的长度会根据单个图像中的对象而变化吗?
  3. 我仍然不清楚s_s网格是如何使用的。如果在图像中间有一辆大车,而YOLO从图像中心从s_s网格看一个小方格,那么就不可能检测到有一辆汽车。我们必须提供更大的广场从中心到YOLO,以使它了解有一辆汽车。那么给一个小方格喂食有什么用呢?
  4. 我们怎样才能养活一个更大的正方形呢?
  5. S的馈电正方形过程是否在多重卷积层后发生(所以基本上一个较小的方格代表了更大的面积)?
  6. 您有图像及其收缩版本的示例吗?他们的一些数据科学在萎缩吗?

-更新2

我读了答案,又看了一遍录像,但仍然不清楚。

2.输入向量的长度将根据单个图像中的对象而变化?例如,如果image1有5个对象,那么输入的长度将比只有1个对象的图像长得多。在输入不是固定宽度的情况下,我们如何输入这类数据?我们是否找到了具有最大对象的图像,并决定了输入的长度,对于其余的图像,我们只需填充0(使输入向量具有相同的长度)吗?

  1. 我仍然对ss网格感到困惑。一开始我问,S的方格是怎么用的?S网格是怎么用的?

阅读了下面的答案后,我更新的问题是,我仍然不清楚如何使用ss网格。如果图像中间有一辆大车,而YOLO从图像中心从ss网格看一个小方格,那么就不可能检测到有一辆汽车。我们必须提供更大的广场从中心到YOLO,以使它了解有一辆汽车。那么给一个小方格喂食有什么用呢?

答案(在原始答案的注释中)说,3:网格单元格不包含整个边界框,而只包含边界框的中点。

我的困惑是:根据前面的讨论,我们不会单独地为网格单元提供信息。我们只提供一次整个图像。那么创建ss网格的意义是什么。如果图像只看一次,那么算法如何检测到两个物体--一辆大车和一辆小车?我们创建网格,网格只用于查找对象的中点。但是整个物体都被识别出来了。我对这部分还不清楚。

我觉得我不是唯一一个很难理解YOLO的人。我在课程的评论部分看到多个线程在问类似的问题,我希望有耐心和指导。

EN

回答 1

Data Science用户

发布于 2018-12-21 02:42:32

  1. 对于每个需要的边框
    • p_c:任何对象/无对象(背景)
    • b_xb_yb_wb_h:x,y,边框的宽度和高度
    • c_i:对象I/无对象i

例如,对于2个边框和3个类别(如汽车、人、交通灯),输入向量如下(括号中的上标表示包围框的索引)

\begin{bmatrix} p_{c}^{(1)}\\ b_{x}^{(1)}\\ b_{y}^{(1)}\\ b_{w}^{(1)}\\ b_{h}^{(1)}\\ c_{1}^{(1)}\\ c_{2}^{(1)}\\ c_{3}^{(1)}\\ p_{c}^{(2)}\\ b_{x}^{(2)}\\ b_{y}^{(2)}\\ b_{w}^{(2)}\\ b_{h}^{(2)}\\ c_{1}^{(2)}\\ c_{2}^{(2)}\\ c_{3}^{(2)}\\ \end{bmatrix}
  1. 整个图像被输入到模型中。这就是为什么YOLO这么快的原因。它只看一次整个图像。
  2. 这是CNN做的。基本上,卷积的每一部分对应于网格单元。例如,图像中的右上单元格将对应于每个层中过滤器的右上部分。这是在这个图像的左边可视化的:
  1. 是的必须有同样的尺码。这是大多数CNN所期望的。训练集中的所有图像必须具有相同的大小,测试集的图像也必须相同。图像被缩小并变形成一个大小为608x608的正方形。
票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/42509

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档