基本信息

项目 内容
论文标题 VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold
作者 Dominic Maggio Hyungtae Lim Luca Carlone
作者单位 MIT
时间 2025
发表会议/期刊

方法概览

特点 文章性质
输入 图片序列(SLAM定义可传入激光IMU等各种机器人传感
**输出 一个环境的几何/语义地图(Map):点云,稀疏的点云ORBSLAM,稠密的点云LSDSLAM,高斯场景
一条智能体的运动轨迹(Trajectory)图片位姿 片位姿 片位姿
所属领域 SLAM(Simultaneous Localization and Mapping,

背景

问题 说明
面对室外长序列数据场景 MASt3R/CUT3R/VGGT开启foundation model for 3D的新范式,但都面临memory与drift问题
相关的工作也能够对齐submap,但是在相机没有标定的情况下比较难以实现。
由于投影模糊,Sim(3)不足以对齐VGGT子地图,这激发了我们基于SL(4)的SLAM。

他的这个motavition写的非常好,非常直接:有人可能会认为,一个简单直接的解决方案是使用VGGT创建多个子地图,每个子地图至少包含一帧重叠画面,并通过求解子地图之间的尺度参数(因为重建过程无法捕获真实尺度),同时利用VGGT估计的位姿来对齐旋转和平移(即估算子地图间的Sim(3)变换)。虽然我们证明了Sim(3)优化在多数情况下能实现出色的重建效果,但实际观测发现:当使用未标定相机时,VGGT的前馈特性会引入投影歧义——这种歧义除了包含Sim(3)的自由度外,还涉及剪切、拉伸和透视自由度,尤其在帧间视差较小时更为明显。仅靠相似变换无法完全消除这种歧义。

创新点

  1. 首个利用 VGGT 前馈式场景重建能力的 SLAM 系统,并将其拓展到 VGGT 单次推理无法处理的大规模场景中。我们的系统完全依赖单目 RGB 相机工作,不需要已知的相机内参,也不依赖帧间一致的标定信息。重要的是,该系统无需额外训练即可实现上述目标。
  2. 首次提出了一个在 SL(4) 流形上直接运行的因子图建模方法,以处理投影歧义问题。

网络架构

  1. 构建一个图像集 。(与视觉 SLAM 中常见的做法类似)我们将一张图像设为关键帧,当其与上一帧关键帧之间的视差(我们使用 Lucas-Kanade 方法估计)大于用户设定的阈值时就作为一个新的关键帧。并被添加到图像集。直到该图像集的大小达到设定的上限。然后维护多个图像集。多个图像集的前后帧是重叠帧
  2. 然后这多个图像集分别传入VGGT生成局部子图

公式太复杂,MARK

背景知识

  1. Sim(4)和Sl(3)之间的区别:SIM3 描述的是包含旋转、平移和统一缩放的“相似变换”,而 SL(4) 描述的是更一般的“投影变换”,包含了剪切、拉伸和透视等效应
  2. SIM3 (Similarity Transform in 3D):
    • 自由度: 7个。
      • 3个用于旋转 (Rotation - R)
      • 3个用于平移 (Translation - t)
      • 1个用于统一缩放 (Scale - s)
    • 数学表示: 一个 SIM3 变换可以表示为一个 4x4 的矩阵,其中旋转部分是一个正交矩阵(代表纯旋转),平移部分是三维向量,缩放因子 s 会乘以旋转矩阵。它保持了物体的形状和角度,只是整体放大或缩小。
    • 核心特性: 保持相似性。变换后的物体与原物体形状完全相同,只是大小、位置和朝向不同。
    • 当相机的内参(焦距、主点等)已知或可以被很好地估计,并且场景重建可以被恢复到一个度量尺度(metric scale)时,子地图之间的对齐通常只需要一个相似变换。
    • SIM3 优化是 SLAM 中非常常见的后端优化技术。它用于解决尺度漂移问题。例如,在单目 SLAM 中,初始重建的尺度是任意的。当系统发现一个回环时,它会计算两个观测位置之间的 SIM3 变换,以校正累积的尺度误差,使地图在尺度上保持一致。如果输入的重建本身存在更复杂的几何模糊性(例如,来自未标定相机的前馈网络的输出),仅用 SIM3 可能无法完美对齐子地图。
  3. SL(4) (Special Linear Group of degree 4):
    • 自由度: 15个 (4x4 矩阵有 16 个元素,但行列式为 1 的约束减少 1 个自由度)。
    • 数学表示: 所有 4x4 的实数矩阵,其行列式等于 1。这个群包含了非常广泛的线性变换。
    • 核心特性: 保持体积和方向(因为行列式为1,不改变有向体积),但不保持形状、角度或距离。它可以表示仿射变换(如剪切、非均匀缩放)以及投影变换。
    • 当使用未标定的单目相机前馈重建网络(如 VGGT)时,根据经典的多视图几何理论,从一组未标定的图像中重建的场景只能被确定到一个15自由度的投影变换(即属于 PGL(3) 或等效的 SL(4) 群)。这意味着在对齐子地图时,不仅要估计它们之间的旋转、平移和缩放,还要估计更复杂的形变参数,以获得一个全局一致的投影重建。