我的问题类似于这个话题。当我开始思考yolo算法的输出时,我正在看这个由Andrew做的关于边界盒预测的非常直接的演讲。让我们考虑这个例子,我们使用19x19网格,只有一个带有两个类的接收字段,所以我们的输出将是=> 19x19x1x5。最后一个维度(大小为5的数组)表示以下内容:
1) The class (0 or 1)
2) X-coordinate
3) Y-coordinate
4) height of the bounding box
5) Width of the bounding box我不明白X,Y坐标是代表整个图像大小的边界框,还是表示接受域(Filter)。在视频中,边框被表示为接收域的一部分,但逻辑上,接收域比边界框小得多,而且人们可能会修改过滤器的大小,因此,相对于过滤器定位边界框是没有意义的。
那么,基本上,图像的边界框的坐标代表什么?
发布于 2018-09-22 13:26:26
来自了解YOLO post @ Hacker正午:
每个网格单元预测B包围盒和C类概率。边界盒预测有5个分量:(x,y,w,h,置信度)。(x,y)坐标表示方框的中心,相对于网格单元格位置(请记住,如果方框的中心不在网格单元格内,则此单元格不负责)。将这些坐标归一化为0到1之间。相对于图像大小,(w,h)盒的尺寸也被标准化为0,1。让我们看一个例子:

https://stackoverflow.com/questions/52455429
复制相似问题