在本文中,对于S=7,B=2,该模型预测了每7x7个网格单元的2个边界框,从而对每幅图像进行7x7x2=98图像的预测。然而,演示输出图像只有3个框。为什么会这样呢?
我的理论是,由于线条的厚度与包围盒的置信度成正比,在模型训练之后,“糟糕的”包围盒非常薄,甚至没有出现。
论文还说,“通常情况下,一个对象落入哪个网格单元,网络只对每个对象预测一个框”。
我很困惑。

发布于 2020-02-10 06:20:24
从98箱到3箱,它也涉及到许多其他事情。
关于整个过程的更多信息:



https://datascience.stackexchange.com/questions/67778
复制相似问题