我正在尝试构建一个图像编辑应用程序,它使用计算机视觉来帮助插入虚拟对象-基本上是AR,但受单个单目图像(未校准)的约束。 虚拟对象插入将仅发生在地平面上(例如,考虑地板上的虚拟地毯)。我已经成功地训练了语义分割深度CNN来预测室内场景的地板(它用作掩膜,以便虚拟对象,例如地毯,仅在此区域可见),但我在确定相机属性方面遇到了困难。现在,因为这只是为了渲染目的,所以估计值不需要非常精确,只要足够接近,渲染的对象看起来不会失真。在研究了这个问题后,我遇到了这篇论文Single View Metrology In the Wild