我在古瑟拉上学习“卷积神经网络”,这是由安德鲁·吴教授的。我在第三周,对YOLO算法感到困惑。我查看了coursera上的课程论坛,但我仍然不清楚,似乎很多人都对此感到困惑。
更新1
-更新2
我读了答案,又看了一遍录像,但仍然不清楚。
2.输入向量的长度将根据单个图像中的对象而变化?例如,如果image1有5个对象,那么输入的长度将比只有1个对象的图像长得多。在输入不是固定宽度的情况下,我们如何输入这类数据?我们是否找到了具有最大对象的图像,并决定了输入的长度,对于其余的图像,我们只需填充0(使输入向量具有相同的长度)吗?
阅读了下面的答案后,我更新的问题是,我仍然不清楚如何使用ss网格。如果图像中间有一辆大车,而YOLO从图像中心从ss网格看一个小方格,那么就不可能检测到有一辆汽车。我们必须提供更大的广场从中心到YOLO,以使它了解有一辆汽车。那么给一个小方格喂食有什么用呢?
答案(在原始答案的注释中)说,3:网格单元格不包含整个边界框,而只包含边界框的中点。
我的困惑是:根据前面的讨论,我们不会单独地为网格单元提供信息。我们只提供一次整个图像。那么创建ss网格的意义是什么。如果图像只看一次,那么算法如何检测到两个物体--一辆大车和一辆小车?我们创建网格,网格只用于查找对象的中点。但是整个物体都被识别出来了。我对这部分还不清楚。
我觉得我不是唯一一个很难理解YOLO的人。我在课程的评论部分看到多个线程在问类似的问题,我希望有耐心和指导。
发布于 2018-12-21 02:42:32
p_c:任何对象/无对象(背景)b_x,b_y,b_w,b_h:x,y,边框的宽度和高度c_i:对象I/无对象i例如,对于2个边框和3个类别(如汽车、人、交通灯),输入向量如下(括号中的上标表示包围框的索引)

https://datascience.stackexchange.com/questions/42509
复制相似问题