论文阅读_Slam3R
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold |
| 作者 | 陈宝权 |
| 作者单位 | 北京大学陈宝权团队联合香港大学 |
| 时间 | 2025 |
| 发表会议/期刊 | CVPR Highlight |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | 图片序列(SLAM定义可传入激光IMU等各种机器人传感 |
| **输出 | 一个环境的几何/语义地图(Map):点云,稀疏的点云ORBSLAM,稠密的点云LSDSLAM,高斯场景 一条智能体的运动轨迹(Trajectory)图片位姿 片位姿 片位姿 |
| 所属领域 | SLAM(Simultaneous Localization and Mapping, |
背景
| 问题 | 说明 |
|---|---|
| dense slam | 现有密集SLAM方法在精度、完整性、效率中至少存在一项缺陷;单目SLAM系统常效率低下,如NICER-SLAM速度远低于1 FPS。 |
| 双视图几何方法如DUSt3R有潜力,但多视图扩展需全局优化,效率不足;Spann3R虽加速重建,却导致累积漂移和质量下降。 |
创新点
- 提出基于DUSt3R实时端到端密集三维重建系统,该系统利用 RGB 视频通过前馈神经网络直接预测统一坐标系中的三维点图。
- 也是一个将视频分为重叠子图的方法,分别传入DUSt3R为基础的一个模型,这个模型的优点是每个子图能在关键帧坐标系建立子图滑动窗口机制将输入的单目RGB视频转换为重叠片段,先由Image-to-Points(I2P)网络从每个窗口中重建局部3D点云。
- 用深度学习的方法解决不同子图局部坐标系对齐问题:局部到世界模块Local-to-World(L2W)直接将预测的局部 3D 点图对齐到统一的全局坐标系中。这消除了显式相机参数估计和昂贵的全局优化的需要。
网络架构
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen!





