我理解(我认为)为什么在目标检测中,结果是一个矩形:
它是一个简单的形状,可以用4个变量来定义(2对对角的同弦或1对弦+宽度和高度)。
因此,更复杂的形状可能需要更多的参数,这可能会使事情复杂化。但是,例如,如果使用一个圆圈呢?只有3个参数,中心+半径的一对坐标。有什么明显的东西我错过了吗?
关于边界框,我想知道如果添加了第5个参数来描述bbox的角度会发生什么。例如,考虑一下这个图像上的iPhone:

我可能想错了,但在我的头脑中,网络可能有一个更容易的时间“理解”,我们希望它检测一个旋转的bbox与实际的iPhone比对轴对齐bbox。对于人类来说,画出旋转的包围框(我认为,更直观)也比轴对齐更容易,不是吗?
不管网络是否更容易,旋转的包围盒将是检测的更精确的结果。
发布于 2022-03-23 13:34:33
有一些关于这方面的工作,偶然看到了这个博客。
https://developer.nvidia.com/blog/detecting-rotated-objects-using-the-odtk/
https://datascience.stackexchange.com/questions/89176
复制相似问题