基本信息

项目 内容
论文标题 MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervisio
作者 Ruicheng Wang1⋆ Sicheng Xu2 Cassie Dai3⋆ Jianfeng Xiang4⋆ Yu Deng2 Xin Tong2 Jiaolong Yang2†
作者单位 USTC Microsoft Research Tsinghua University
时间 2025
发表会议/期刊

方法概览

特点 文章性质
输入 单张 RGB 图像
输出 具有未知尺度的仿射不变点图
所属领域 MGE:Monocular geometry estimation,从单张单目图像中直接预测场景三维点云。利用仿射不变性,不受真实尺度和位移的影响,从而消除了相机焦距产生的歧义。

背景

  1. 在单目估计MDE近期仿射不变预测或者直接回归或生成模型的方式,但恢复三维几何需要相机内参。

创新点

  1. 提出了一种新的仿射不变点映射的开放域图像的直接MGE方法。
  2. 建立了新的有效的全局和局部监督的鲁棒和精确的几何恢复。
  3. 不同数据集下,MGE,MDE,FOV估计均达到SOTA(模型在包括3D点图,深度图,FoV(相机视场)单目估计中都显著优于最先进的方法)

方法

  1. 输入一张单目图像,经过DINOV2 预训练的ViT+轻量级的基于CNN的上采样器预测一个仿射不变点图\hat{P}和一个掩码\hat{M}用于排除无法定义几何的区域(如天空),直接给定为无穷远。
  2. \hat{M}\hat{P}中通过ROE确定全局尺度因子s和平移t,并通过损失来优化参数,在推理过程直接就通过ROE求解得到最优的s和t。
  3. 最后有了s和t,通过仿射不变点图\hat{P}恢复出相机空间下的点云P=s\hat{P}+t,进一步通过点云P提取出深度图,就是提取所有点的z坐标。

损失函数

最重要的是这里的损失函数

背景知识



单目深度估计的深度图要转化成点云需要相机参数。
单目几何估计的点图转化为深度图需要优化计算出相机参数然后转化。