深度信息和语义分割信息具有很强的相关性:场景中语义分割信息相似的物体所拥有的深度信息是相似的。 而且,一般的方法通常是针对某个数据库的数据范围的(NYUv2用来做室内深度预测,深度的ground truth 是 0~10m,KITTI用来处理行车道路信息,深度的ground truth 是 0~70m ),这篇文章的深度是没有这种限制的。 这篇文章得到的深度信息感觉是很amazing的一件事,为这篇文章打call!但是缺点也很明显,由于是相对深度信息仅仅得到的数据表示了当前图片中物体的远近关系和真实深度信息有很大的区别。 2017 CVPR) Semi-Supervised Deep Learning for Monocular Depth Map Prediction (2017 CVPR) 六、其它 基于视频序列的单目深度估计
二 单目深度估计的研究现状 下图[1]展示了单目深度估计的发展历程,从传统方法发展到深度学习方法,深度学习又分为有监督、半监督和无监督方法。 注:这里也给大家推荐系统介绍单目深度估计原理的精品课程:单目深度估计方法:算法梳理与代码实现 我们将单目深度估计方法分为:基于线索的传统方法、基于机器学习的传统方法、基于有监督的深度学习方法和基于无监督的深度学习方法 然而,此时的单目深度估计方法都是基于监督学习的,在模型训练时需要依赖真实深度,同时需要依赖庞大的数据进行网络模型的训练,数据集一般包括单目图像和对应的深度真值。 基于无监督学习的单目深度估计方法由于在网络训练时不依赖深度真值,因此成为了单目深度估计研究中的热点。无监督学习根据图像对之间的几何关系重建出对应的图像,从而通过图像重建损失监督网络的训练。 相对于传统计算机视觉算法和有监督学习算法,基于无监督学习的单目深度估计方法在网络模型训练时只依赖多帧图像,不需要深度真值,在预测深度时只需输入单目图像,具有数据集易获得、结果准确率高和易于应用等优点。
最后,我们讨论了单目深度估计的挑战,并对未来的研究提出了一些设想。 本综述的主要目的是提供对主流算法的直观理解,这些算法对单目深度估计做出了重大贡献,我们从学习方法的角度回顾了单目深度估计的一些相关工作。 ● 基于深度学习的单目深度估计 在本节中,我们将从使用地面真实性的角度来回顾单目深度估计方法:有监督方法、无监督方法和半监督方法。 A 有监督单目深度估计 监督方法的基本模型:监督方法的监督信号基于深度图的地面真值,因此单目深度估计可以看作是一个回归问题。从单个深度图像设计神经网络来预测深度。 此外,对于基于深度学习的单目深度估计方法的机理研究很少,比如深度网络学习了什么深度线索以及利用了什么深度线索。 ●总结 本文旨在对基于深度学习的单目深度估计这一日益增长的研究领域的综述文献。
而单目深度估计则相对成本更低,更容易普及。 那么对于单目深度估计,顾名思义,就是利用一张或者唯一视角下的RGB图像,估计图像中每个像素相对拍摄源的距离。 那么单目深度估计不仅需要从二维图像中学会客观的深度信息,而且需要提取一些经验信息,后者则对于数据集中相机和场景会比较敏感。 ·Structure from motion/基于视频的深度估计 这一部分中既包含了单帧视频的单目深度估计,也包含了多帧间视频帧的像素的立体匹配,从而近似获取多视角图像,对相机位姿进行估计。 ? 本小节的内容都是基于无监督的单目深度估计算法。 5、总结 对于单目深度估计模型,目前主要分为基于回归/分类的监督模型,基于双目训练/视频序列的无监督模型,以及基于生成学习的图像风格迁移模型。 大概从2017年起,即CVPR2018开始,单目深度估计的效果就已经达到了双目深度估计的效果,主要是监督模型。
引言深度感知是理解三维物体并判断这些物体距离的过程。它有助于导航、物体操纵和场景理解等任务。尽管深度感知很重要,但从单张图像估计深度(称为单目深度估计)对人工智能来说是一个具有挑战性的问题。 MiDaS单目深度估计通过从单张图像确定物体的深度,受益于在大型多样化数据集上的训练。然而,为许多不同环境收集准确的深度信息是一项艰巨的任务,导致各种具有独特特征和偏见的数据集。 Depth Anything v2Depth Anything V2是V1的重大升级,旨在增强单目深度估计模型。 单目深度估计的应用单目深度估计在许多应用中都有用处,以下是一些显著用例:自动驾驶车辆:深度估计通过提供环境的3D理解,帮助自动驾驶汽车识别和避免障碍物。 随着技术的进步,单目深度估计是一种强大的算法,可以推动创新和效率,使其成为未来各行业的关键组成部分。
如果想要深入学习单目深度估计方面的知识,可以关注我们工坊推出的课程: 单目深度估计方法:算法梳理与代码实现 单目深度估计一直以来都是计算机视觉领域中的一项非常具有挑战的难题。 随着计算机技术、数字图像处理算法和深度学习等技术的发展,常用的单目深度估计算法大概可以分为以下几类:基于线索的和机器学习的传统方法、基于有监督的深度学习方法和基于无监督的深度学习方法。 1、马尔可夫随机场 在基于有监督学习的图像深度估计算法中,通常以图像中单个像素或者区域作为深度估计的基本单元,并且某一个像素或区域的深度与相邻像素或区域的深度存在关联。 在进行深度估计时,每个像素或区域的位置上存在随机场中的一个随机变量,它可以从深度值的集合中进行取值,所以,深度估计问题的本质就是找到最可能符合真实场景深度的一个深度值的配置。 structure from motion,是通过相机的移动来确定目标的空间和几何关系的方法,通俗的说法就是利用视频中不同帧之间的二维特征点的对应关系同时恢复三维结构和相机的内外参,是三维重建中的一种常见方法,也是深度学习之前深度估计的经典方法
引言☁️ 在计算机视觉领域,深度学习技术已经成为解决许多任务的主要方法,其中包括图像分类、目标检测、语义分割等。然而,在单目深度估计方面,仍然存在着一些挑战。 单目深度估计是指从单张RGB图像中估计场景中每个像素点的深度信息,这是许多视觉任务的关键前提。本文介绍了两种前沿的方法:稳定扩散和仿射不变深度估计,旨在解决深度估计中的关键问题。 1.2 仿射不变深度估计简介 仿射不变深度估计是一种利用深度学习方法从单目图像中估计场景深度信息的技术。 然而,传统的深度估计方法往往受限于姿态变化、光照变化等因素的影响,难以实现精确的深度估计。因此,引入了稳定扩散和仿射不变深度估计的概念,旨在解决这一挑战,并为单目深度估计领域带来新的突破。 4.3 预测方差和训练噪声 在不同数据集上对单目深度估计方法进行的深度定性比较。
大家好,今天为大家带来的文章是IDA-3D:Depth Estimation from Monocular Images and Sparse Radar Data 在这篇论文中,我们探讨利用深度神经网路将单目影像与雷达点融合 ,以达到更精确的深度估计的可能性。 本研究旨在探讨利用雷达资料进行密集深度估计所面临的挑战,并提出一种新的方法。 我们作出以下贡献: 1)详细研究了使用雷达数据进行密集深度估计所面临的挑战;2)提出一种新颖的、精心设计的基于单眼图像和稀疏雷达数据的深度估计网络体系结构;数据和代码将在论文被接受后发布,以便于该方向的研究 1.Radar data 目前还没有关于RGB+雷达深度估计任务的研究工作。
年到如今的单目人体姿态估计的深度学习方法进行了详细总结,值得做相关方向的同学参考。 这篇综述的特点是它本身也列出了其他的近年来出现的人体姿态估计的综述,并尽量总结2014年到现在其他综述中没有出现过的基于深度学习的方法。 大部分时间比较久远了,而一篇2018年的主要关注RGB-D相机下的姿态估计。所以本文主要关注单目深度学习人体姿态估计,正好作为近年工作的总结,成为以上工作的重要补充。 3D多人姿态估计算法总结(比较少): ? 2D数据集总结: ? 可见最大的图像数据集为AIC-HKD,有21万幅图像。 2D姿态估计数据集示例: ? 2D姿态估计常用的结果评价标准: ? 3D姿态估计常用数据集: ? 可见,Human3.6M是目前个体最多,数量最大的数据集。 3D姿态估计图像示例: ? 该综述对于了解单目姿态估计研究现状有帮助。
编辑丨3D视觉学习笔记 最近学习总结分享,关于深度立体匹配和多视角立体几何:
From: 大连理工;编译: T.R 近年来,随着深度学习的发展,深度估计任务的性能得到了极大的提升,多层级CNN结构具有非常强的表达能力,使得更为精确的单目深度估计成为可能。 人们曾提出很多种损失函数用于深度估计,但这些损失函数并不尽如人意。因此,需要在不同空间中探索用于深度估计的有效训练损失。本文将介绍一种多层嵌入损失的新方法,让深度估计更加清晰。 ? ? 在这些损失函数的指导下,大量的深度估计模型实现了优异的估计结果。 对此,本文提出了两个所要遵循的原则: 训练抽取嵌入特征的任务要与深度估计任务有相关性,否则就无法让深度估计任务受益。 深度估计网络CLIFFNet 通过间接任务,获取到度量估计结果与目标差异的分层嵌入抽取器HEG-R/HEG-S后,研究人员开始正式构建深度估计网络。
图1 Monodepth深度估计图 目前单目深度估计的难点,同时也是本论文着重解决的方向: 1、图像序列中存在遮挡。 该篇论文联合相机位姿估计与单目深度估计两项任务,使单目深度估计成为了可能。 具体来说便是:首先利用单目深度估计网络进行逆深度估计,需要注意的是:该逆深度被限定在0与1之间,也就是说,该网络估计的为相对逆深度。然后进行相机位姿估计。 一、逆深度估计模块 该模块的作用是从单目图像中估计图像每个像素点的逆深度,在求解出逆深度之后,只需要对其取倒数便可获取对应的深度。 单目深度估计需要进行如下假设:场景静止、相机运动。
图1 Monodepth深度估计图 目前单目深度估计的难点,同时也是本论文着重解决的方向: 1、图像序列中存在遮挡。 该篇论文联合相机位姿估计与单目深度估计两项任务,使单目深度估计成为了可能。 具体来说便是:首先利用单目深度估计网络进行逆深度估计,需要注意的是:该逆深度被限定在0与1之间,也就是说,该网络估计的为相对逆深度。然后进行相机位姿估计。 一、逆深度估计模块 该模块的作用是从单目图像中估计图像每个像素点的逆深度,在求解出逆深度之后,只需要对其取倒数便可获取对应的深度。 单目深度估计需要进行如下假设:场景静止、相机运动。
单目人体姿态估计具有一些独特的特点和挑战。 单目摄像机作为应用最为广泛的传感器,对三维人体姿态估计具有重要意义。深度神经网络具有从单目图像估计密集深度和稀疏深度点(关节)的能力。 此外,基于单目输入的三维人体姿态估计的进展可以进一步改善约束环境下的多视点三维人体姿态估计。 因此,本节重点介绍基于深度学习的方法,这些方法从单目RGB图像和视频中估计3D人体姿势,包括3D单人姿势估计和3D多人姿势估计。 3.1. 3.2 三维多人姿态估计 单目三维多人姿态估计是在三维单人姿态估计等深度学习方法的基础上发展起来的。这一研究领域比较新,提出的方法也不多。
单目人体姿态估计具有一些独特的特点和挑战。 单目摄像机作为应用最为广泛的传感器,对三维人体姿态估计具有重要意义。深度神经网络具有从单目图像估计密集深度和稀疏深度点(关节)的能力。 此外,基于单目输入的三维人体姿态估计的进展可以进一步改善约束环境下的多视点三维人体姿态估计。 因此,本节重点介绍基于深度学习的方法,这些方法从单目RGB图像和视频中估计3D人体姿势,包括3D单人姿势估计和3D多人姿势估计。 3.1. 3.2 三维多人姿态估计 单目三维多人姿态估计是在三维单人姿态估计等深度学习方法的基础上发展起来的。这一研究领域比较新,提出的方法也不多。
室内场景自监督单目深度估计(已开源) 作者:lovelypanda 1. 笔者总结 本文方法是一种自监督的单目深度估计框架,名为GasMono,专门设计用于室内场景。 通过在多个数据集上进行实验,展示了GasMono框架在室内自监督单目深度估计方面的最先进性能。 原文摘要 本文针对室内场景中存在的大旋转和低纹理等挑战,提出了一种单目自监督深度估计的框架。我们通过利用多视几何方法从单目序列中估计粗略的相机姿态来缓解大旋转的问题。 此外,作者还对模型的各个组件进行了消融实验,评估了它们对解决室内单目深度估计挑战的贡献。最后,作者还与现有的先进方法进行了比较,证明了GasMono在室内自监督单目深度估计中的优势。 表1. 结论 本文提出了GasMono,一种利用几何信息的自监督单目深度估计框架,适用于复杂的室内场景。
Depth Map Decomposition for Monocular Depth Estimation 论文:https://arxiv.org/abs/2208.10762 摘要: 我们提出了一种新的单目深度估计算法 ,该算法将度量深度图分解为归一化深度图和尺度特征。 该网络由一个共享编码器和三个解码器组成,分别称为G-Net、N-Net和M-Net,它们分别估计梯度图、归一化深度图和度量深度图。 M-Net学习使用G-Net和N-Net提取的相对深度特征更准确地估计度量深度。该算法的优点是可以使用没有度量深度标签的数据集来提高度量深度估计的性能。 在各种数据集上的实验结果表明,所提出的算法不仅为最先进的算法提供了具有竞争力的性能,而且即使只有少量度量深度数据可用于训练,也能获得可接受的结果。
来源:澳大利亚阿德莱德大学 论文名称:Task-Aware Monocular Depth Estimation for 3D Object Detection 原文作者:Xinlong Wang 单目深度估计能够从一个单一的二维图像进行 前景对象的深度在三维对象识别和定位中起着至关重要的作用。到目前为止,对于如何提高前景对象的深度预测精度的讨论还很少。 本文首先分析了前景和背景的数据分布和相互作用,然后提出了ForeSeE方法,利用分离的优化目标和解码器来估计前景和背景深度,极大地提高了前景对象的深度估计性能。
Depth Prediction from Sparse Depth Samples and a Single Image 原文作者:Fangchang Ma 内容提要 本文旨在解决如何从一组稀疏的深度传感器和一个单一的 RGB的图像中实现稠密深度预测问题。 由于单目图像上的深度估计本质上是不可靠,为达到一个更高水平的鲁棒性和准确性,本文引入了额外的稀疏深度样本,这些样本是通过低分辨率的深度传感器获得或SLAM算法获得。 本文提出使用一个单一深度的回归网络直接从RGB-D原始数据学习,并探讨样本数量对数据预测精度的影响。 实验结果表明,与只使用RGB图像,在NYU-Depth-v2室内数据集上,增加100个空间随机深度样本可以减少50%的预测均方根误差。同时将KITTI数据集上的预测可靠性从59%提升到92%。
数据集介绍 实例级单目目标姿态估计与跟踪数据集:主要包括经典的Linemod、YCB等数据集~ 类别级单目目标姿态估计与跟踪数据集:主要包括KITTI3D、Apolloscape等开源数据集~ ? 实例级单目目标姿态检测 实例级单目目标姿态检测的目的是检测目标并估计其相对于标准帧的6自由度姿态(旋转和平移),又可分为基于RGB数据和RGBD数据。 基于RGB数据的方法 对于六自由度姿态的估计,最直接的方法是让深度学习模型直接预测姿态相关参数。然而,从单个RGB图像直接估计6自由度姿态是一个不适定的问题,并面临挑战。 幸运的是,单目RGBD相机的发展推动了基于(RGB)D的6自由度姿态估计方法的发展(基于RGB的方法以RGBD图像或深度掩模为输入,充分利用点云表示的能力预测物体的姿态。 或者我们可以使用现成的点云三维探测器作为教师网络来训练单目三维探测器,就像在知识蒸馏中的那样。 4、类别级6D姿态估计 大多数方法都需要使用现成的二维目标检测模型来提前定位目标。