基本信息

项目 内容
论文标题 VGGT-Long: Chunk it, Loop it, Align it– Pushing VGGT’s Limits on Kilometer-scale Long RGB Sequences
作者 Kai Deng, Zexin Ti, Jiawei Xu, Jian Yang, Jin Xie
作者单位 南开大学;南京大学
时间 2025
发表会议/期刊

方法概览

特点 文章性质
输入 图片序列(SLAM定义可传入激光IMU等各种机器人传感
**输出 一个环境的几何/语义地图(Map):点云,稀疏的点云ORBSLAM,稠密的点云LSDSLAM,高斯场景
一条智能体的运动轨迹(Trajectory)图片位姿 片位姿 片位姿
所属领域 SLAM(Simultaneous Localization and Mapping,

背景

问题 说明
面对室外长序列数据场景 CUT3R, Fast3R存在严重的漂移问题
MASt3R-SLAM, VGGT则无法完成整个长序列的处理
MASt3R/CUT3R/VGGT开启foundation model for 3D的新范式,但都面临memory与drift问题
MASt3R-SLAM,集成 MASt3R+图优化,但复杂且实时性差。 在中短序列精度高但会 track lost
VGGT-Long 在所有序列运行稳定,且重建精度高

VGGT-Long能够成功完成公里级场景的重建,并保持了场景的准确性。

创新点

  1. VGGT-Long能够成功完成公里级场景的重建,并保持了场景的准确性。无需相机标定、无需深度监督、也无需重新训练基础模型,仅通过一套高效的后处理系统,就解决了现有模型的可扩展性瓶颈
  2. 核心思想可以概括为其标题中的三个动词:分块(Chunk it)、循环(Loop it)、对齐(Align it)。
    1. 分块处理 (Chunk it): 将长视频序列分割成多个有重叠的、固定长度的短视频块(chunks)。然后,它以滑动窗口的方式,将这些视频块依次送入预训练的VGGT模型进行处理,得到每个块的局部3D点图(pointmap)和相机轨迹。
    2. 重叠对齐 (Align it): 将它们拼接成一个全局一致的场景。VGGT-Long利用相邻视频块之间的重叠部分进行对齐。值得一提的是提出了一种置信度感知对齐(Confidence-aware alignment)策略。VGGT模型会为每个预测的点生成一个置信度分数,该策略可以有效抑制场景中高速运动的物体(如车辆)对对齐过程的干扰。其实就是重叠部分进行对齐匹配但是删除动态物体的匹配吗
      1. 如何对齐?
    3. 回环优化 (Loop it): 全局尺度的漂移(例如,起点和终点无法闭合)。为了解决这个问题,VGGT-Long引入了轻量级的回环闭合优化(Loop Closure Optimization)。当车辆回到先前经过的位置时,系统会检测到回环,并建立约束。然后通过全局LM(Levenberg-Marquardt)优化,一次性校正整个轨迹的累积误差,确保全局地图的一致性。
      1. 基于什么优化?
      2. 如何检测回环?

网络架构