论文阅读_MoGe

发表于2025-12-03|更新于2026-03-09|论文阅读

|浏览量:

基本信息

项目	内容
论文标题	MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervisio
作者	Ruicheng Wang1⋆ Sicheng Xu2 Cassie Dai3⋆ Jianfeng Xiang4⋆ Yu Deng2 Xin Tong2 Jiaolong Yang2†
作者单位	USTC Microsoft Research Tsinghua University
时间	2025
发表会议/期刊

方法概览

特点	文章性质
输入	单张 RGB 图像
输出	具有未知尺度的仿射不变点图
所属领域	MGE：Monocular geometry estimation，从单张单目图像中直接预测场景三维点云。利用仿射不变性，不受真实尺度和位移的影响，从而消除了相机焦距产生的歧义。

背景

在单目估计MDE近期仿射不变预测或者直接回归或生成模型的方式，但恢复三维几何需要相机内参。

创新点

提出了一种新的仿射不变点映射的开放域图像的直接MGE方法。
建立了新的有效的全局和局部监督的鲁棒和精确的几何恢复。
不同数据集下，MGE，MDE，FOV估计均达到SOTA(模型在包括3D点图，深度图，FoV（相机视场）单目估计中都显著优于最先进的方法)

方法

输入一张单目图像，经过DINOV2 预训练的ViT+轻量级的基于CNN的上采样器预测一个仿射不变点图 $\hat{P}$ 和一个掩码 $\hat{M}$ 用于排除无法定义几何的区域（如天空），直接给定为无穷远。
从 $\hat{M}$ 和 $\hat{P}$ 中通过ROE确定全局尺度因子s和平移t，并通过损失来优化参数，在推理过程直接就通过ROE求解得到最优的s和t。
最后有了s和t，通过仿射不变点图 $\hat{P}$ 恢复出相机空间下的点云 $P=s\hat{P}+t$ ，进一步通过点云P提取出深度图，就是提取所有点的z坐标。

损失函数

最重要的是这里的损失函数

背景知识

单目深度估计的深度图要转化成点云需要相机参数。
单目几何估计的点图转化为深度图需要优化计算出相机参数然后转化。

文章作者: outbreak_sen

文章链接: http://outbreak-sen.github.io/2025/12/03/%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB_MoGe/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen！

前馈基础模型

赞助

微信
支付宝

相关推荐

论文阅读_MASt3R

基本信息项目内容论文标题 Grounding Image Matching in 3D with MASt3R 作者作者单位 NAVER LABS Europe（欧洲Naver实验室）时间 2024.6 发表会议/期刊全称方法概览特点文章性质输入单张 RGB 图像输出所属领域一个 3D 点、一个置信度值和一个局部特征。创新点在 DUSt3R 前额外加一个 network 输出稠密的 local features，并添加 matching loss 来训练。最后引入一种快速相互匹配方案，能够将匹配速度提高几个数量级。网络架构如何匹配？背景知识匹配方法通常被归结为一个三步流程，首先提取稀疏且可重复的关键点，然后用局部不变特征描述它们，最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...

论文阅读_MoGe 2

基本信息项目内容论文标题 MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details 作者 Ruicheng Wang1∗ Sicheng Xu2 Yue Dong2 Yu Deng2 Jianfeng Xiang3∗ Zelong Lv1∗ Guangzhong Sun1 Xin Tong2 Jiaolong Yang 作者单位 USTC Microsoft Research Tsinghua University 时间 2025 发表会议/期刊方法概览特点文章性质输入单张 RGB 图像输出将MoGe扩展为公制几何预测，同时不损害仿射不变点表示提供的相对几何精度。所属领域视觉...