论文阅读_VGGT-LONG
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | VGGT-Long: Chunk it, Loop it, Align it– Pushing VGGT’s Limits on Kilometer-scale Long RGB Sequences |
| 作者 | Kai Deng, Zexin Ti, Jiawei Xu, Jian Yang, Jin Xie |
| 作者单位 | 南开大学;南京大学 |
| 时间 | 2025 |
| 发表会议/期刊 |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | 图片序列(SLAM定义可传入激光IMU等各种机器人传感 |
| **输出 | 一个环境的几何/语义地图(Map):点云,稀疏的点云ORBSLAM,稠密的点云LSDSLAM,高斯场景 一条智能体的运动轨迹(Trajectory)图片位姿 片位姿 片位姿 |
| 所属领域 | SLAM(Simultaneous Localization and Mapping, |
背景
| 问题 | 说明 |
|---|---|
| 面对室外长序列数据场景 | CUT3R, Fast3R存在严重的漂移问题 MASt3R-SLAM, VGGT则无法完成整个长序列的处理 MASt3R/CUT3R/VGGT开启foundation model for 3D的新范式,但都面临memory与drift问题 MASt3R-SLAM,集成 MASt3R+图优化,但复杂且实时性差。 在中短序列精度高但会 track lost VGGT-Long 在所有序列运行稳定,且重建精度高 |
VGGT-Long能够成功完成公里级场景的重建,并保持了场景的准确性。
创新点
- VGGT-Long能够成功完成公里级场景的重建,并保持了场景的准确性。无需相机标定、无需深度监督、也无需重新训练基础模型,仅通过一套高效的后处理系统,就解决了现有模型的可扩展性瓶颈
- 核心思想可以概括为其标题中的三个动词:分块(Chunk it)、循环(Loop it)、对齐(Align it)。
- 分块处理 (Chunk it): 将长视频序列分割成多个有重叠的、固定长度的短视频块(chunks)。然后,它以滑动窗口的方式,将这些视频块依次送入预训练的VGGT模型进行处理,得到每个块的局部3D点图(pointmap)和相机轨迹。
- 重叠对齐 (Align it): 将它们拼接成一个全局一致的场景。VGGT-Long利用相邻视频块之间的重叠部分进行对齐。值得一提的是提出了一种置信度感知对齐(Confidence-aware alignment)策略。VGGT模型会为每个预测的点生成一个置信度分数,该策略可以有效抑制场景中高速运动的物体(如车辆)对对齐过程的干扰。其实就是重叠部分进行对齐匹配但是删除动态物体的匹配吗
- 如何对齐?:
- 如何对齐?:
- 回环优化 (Loop it): 全局尺度的漂移(例如,起点和终点无法闭合)。为了解决这个问题,VGGT-Long引入了轻量级的回环闭合优化(Loop Closure Optimization)。当车辆回到先前经过的位置时,系统会检测到回环,并建立约束。然后通过全局LM(Levenberg-Marquardt)优化,一次性校正整个轨迹的累积误差,确保全局地图的一致性。
- 基于什么优化?:
- 如何检测回环?
- 基于什么优化?:
- 分块处理 (Chunk it): 将长视频序列分割成多个有重叠的、固定长度的短视频块(chunks)。然后,它以滑动窗口的方式,将这些视频块依次送入预训练的VGGT模型进行处理,得到每个块的局部3D点图(pointmap)和相机轨迹。
网络架构
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen!







