我正试着训练一个YOLO模型。为此,我将224*224的输入图像划分为14*14栅格。
现在假设有一个物体,它的中心位于Bx,将0,0作为图像的左上角,分别具有Bw、Bh高度和宽度。
Required_prediction=[Pc,Bx,By,Bw,Bh]其中Pc是所需对象的概率。
因此,模型的输出将是14*14*5。
我的问题是输出标签应该是什么?
所有框0、0、0、0、0以及包含req img中心的框为pc、bx、by、bw、bh
或
所有框0,0,0,0,0,除整个区域的所需图像标记为pc,bx。。。
也是
对于bx,by,bw,bh图像的中心是指定到图像左上角的wrt,还是坐标落入的网格?
发布于 2020-07-05 18:45:48
所有的框0,0,0,0,0,以及包含req中心为pc,bx,by,bw,bh的框都是假设将图像划分为14*14网格的正确选择。
但是在现实问题中,它们使用不同的大小来解决这个问题,这意味着您可以将图像分割成14*14、8*8和4*4网格来处理不同大小的对象。
https://stackoverflow.com/questions/62744883
复制相似问题