基本信息

项目 内容
论文标题 MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details
作者 Ruicheng Wang1∗ Sicheng Xu2 Yue Dong2 Yu Deng2 Jianfeng Xiang3∗ Zelong Lv1∗ Guangzhong Sun1 Xin Tong2 Jiaolong Yang
作者单位 USTC Microsoft Research Tsinghua University
时间 2025
发表会议/期刊

方法概览

特点 文章性质
输入 单张 RGB 图像
输出 将MoGe扩展为公制几何预测,同时不损害仿射不变点表示提供的相对几何精度。
所属领域 视觉 Transformer

背景:

  1. 单目深度估计(MDE)和单目几何估计(MGE)的最新进展得益于在大规模数据集上训练的基础模型。相较于深度估计,MGE方法通常还预测相机内参,从而将像素提升到三维空间,因此支持更广泛的应用。但没有实现公制尺度重建
  2. 对于公制几何估计,一种直接的解决方案是直接预测公制空间中的绝对点图。然而,由于焦距-距离模糊问题,这种方法并非最优。为此,我们探索了两种简单、直观但有效的替代方案。第一种采用平移不变点图表示,直接将公制尺度集成到点图预测中。第二种保留仿射不变表示,但以解耦方式额外预测全局尺度因子。两种策略均缓解了焦距-距离模糊问题,但后者产生了更精确的结果,这可能归因于其规范化点图空间更好地保留了相对几何。
  3. 在后一方面,我们提出了一种实用的数据精炼方法,为真实世界训练数据生成锐利深度标签。真实数据标签通常存在噪声和不完整,尤其在物体边界处,这阻碍了精细几何细节的学习。此前工作如Depth Anything V2选择仅使用合成数据标签,尽管在二维可视化时显得锐利,但牺牲了几何精度。类似地,Depth Pro在其两阶段中的第二阶段也仅使用合成数据。相比之下,我们在整个训练过程中采用真实数据,以确保高几何精度——这是我们方法的关键目标。我们的流程首先过滤真实数据中不匹配或错误的深度值(主要出现在物体边界),然后通过边缘保持深度补全,利用在合成数据上训练的模型填充缺失区域。该方法显著提升了细节精细度,同时几何精度与使用未处理完整真实数据训练的模型相当。

创新点

  1. 提出一种新的MGE方法,我们的方法建立在近期MoGe方法基础上,该方法从单张图像预测仿射不变点图,并达到最先进的几何精度。MoGe的核心是其优化的训练方案,包括鲁棒且最优的点云对齐求解器以及增强局部几何精度的多尺度监督方法。我们的工作通过引入公制几何预测能力并提升几何粒度以捕捉复杂细节,对MoGe进行了扩展。
  2. 此外发现真实数据中的噪声和误差会降低预测几何的细节粒度。为此开发了一种统一的数据精炼方法,利用清晰的合成标签对不同来源的真实数据进行过滤和补全(数据集)