论文阅读_Slam3R

发表于2025-12-03|更新于2025-12-03|论文阅读

|浏览量:

基本信息

项目	内容
论文标题	VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold
作者	陈宝权
作者单位	北京大学陈宝权团队联合香港大学
时间	2025
发表会议/期刊	CVPR Highlight

方法概览

特点	文章性质
输入	图片序列（SLAM定义可传入激光IMU等各种机器人传感
**输出	一个环境的几何/语义地图（Map）：点云，稀疏的点云ORBSLAM，稠密的点云LSDSLAM，高斯场景一条智能体的运动轨迹（Trajectory）图片位姿片位姿片位姿
所属领域	SLAM（Simultaneous Localization and Mapping，

背景

问题	说明
dense slam	现有密集SLAM方法在精度、完整性、效率中至少存在一项缺陷；单目SLAM系统常效率低下，如NICER-SLAM速度远低于1 FPS。
	双视图几何方法如DUSt3R有潜力，但多视图扩展需全局优化，效率不足；Spann3R虽加速重建，却导致累积漂移和质量下降。

创新点

提出基于DUSt3R实时端到端密集三维重建系统，该系统利用 RGB 视频通过前馈神经网络直接预测统一坐标系中的三维点图。
也是一个将视频分为重叠子图的方法，分别传入DUSt3R为基础的一个模型，这个模型的优点是每个子图能在关键帧坐标系建立子图滑动窗口机制将输入的单目RGB视频转换为重叠片段，先由Image-to-Points（I2P）网络从每个窗口中重建局部3D点云。
用深度学习的方法解决不同子图局部坐标系对齐问题：局部到世界模块Local-to-World（L2W）直接将预测的局部 3D 点图对齐到统一的全局坐标系中。这消除了显式相机参数估计和昂贵的全局优化的需要。

网络架构

文章作者: outbreak_sen

文章链接: http://outbreak-sen.github.io/2025/12/03/%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB_Slam3R/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen！

Muilt View Stereo

赞助

微信
支付宝

相关推荐

三维视觉几何大整理

李沐-AlexNet和卷积基础 ImageNet Classification With Deep Convolutional Neural Networks 俄罗斯人Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton 2012 在谷歌实习时候见到过这个人，汇报了这个工作。首个真正意义上的深度卷积神经网络摘要 ImageNet是一个很大的数据集超过1500万张在超过22,000个类别，取其中一部分1000个类在Imageet上top-1错误率37.5%，top-5错误率17.0%...

Bark模型微调

Bark模型微调 TTS模型/文本到语音（TTS）生成模型以下开放的、已支持训练的 TTS 模型：模型名是否支持训练特点架构类型 SpeechT5（HuggingFace） ✅ 支持 TTS、VC、ASR，多任务训练 Coqui-TTS（强烈推荐） ✅ 支持 Tacotron2/FastSpeech2/VITS ESPnet（工业级框架） ✅ 支持多种语音模型，配置稍复杂 YourTTS, VITS, GlowTTS ✅ Coqui-TTS/ESPnet 中均支持 VITS VAE + GAN + flow Bark GPT decoder-only Tacotron2 encoder-decoder + attention EnCodec 解码器 EnCodec 是由 Facebook FAIR 开源的神经压缩音频模型，可以高效地将音频压缩成离散 token，再解压回高质量语音。类似于 VQ-VAE（Vector Quantized Variational...

CUDA 环境的两种来源

🧩 一、CUDA 环境的两种来源 CUDA（Compute Unified Device Architecture）分为两部分：类型功能通常位置谁提供 CUDA Toolkit（开发套件）编译 CUDA 程序、包含 nvcc、头文件、静态库 /usr/local/cuda-* 你自己系统安装 CUDA Runtime（运行时库）运行 PyTorch / TensorFlow / cuDNN 等程序通常是 .so 动态库 PyTorch（或 conda 包）自动安装 👉 也就是说：系统 CUDA Toolkit：给开发者编译用（比如写 CUDA C++、编译自定义算子）。 conda/pip CUDA Runtime：给 PyTorch 运行用，不依赖系统 CUDA。 ⚙️ 二、本地 CUDA 与 conda CUDA 的区别对比项系统 CUDA Toolkit conda CUDA runtime 用途编译代码、开发运行 PyTorch、推理训练是否随 PyTorch 一起安装否是（通过...

FoundationStereo

FoundationStereo NVIDIA 2025 摘要（有本事别微调刷榜，我就是要做zero-shot）通过每个域的微调，深度立体匹配在基准数据集上取得了巨大进步。然而，实现强大的零镜头泛化（其他计算机视觉任务中基础模型的标志）对于立体匹配来说仍然具有挑战性。为此，我们首先构建了一个大规模（1M 立体对）合成训练数据集，具有较大的多样性和高照片级真实感，然后是一个自动自我管理管道来去除模棱两可的样本。然后，我们设计了许多网络架构组件来增强可扩展性，包括一个侧调功能主干，它适应了视觉基础模型中丰富的单目先验，以减轻 sim-to-real 的差距，以及用于有效成本量过滤的远程上下文推理。引言近半个世纪前第一个立体匹配算法出现，我们已经走过了漫长的道路。，最近的立体算法可以取得惊人的结果，几乎使最具挑战性的基准测试饱和。然而，对目标域的数据集进行微调仍然是获得竞争结果的首选方法。鉴于通过scaling...

阅读MASt3R-SLAM的代码，重点关注检索、回环部分通过MASt3R_ViTLarge_BaseDecoder_512_catmlpdpt_metric_retrieval_trainingfree生成特征进行检索，track成功进行全局因子图优化，track失败则回环检测，检测成功则再因子图优化，优化成功就可以继续，但是如果失败就直接continue，不添加到keyframe？MASt3R-SLAM 系统中的 RetrievalDatabase 并非传统的词袋模型，而是一个基于深度学习特征的高效图像检索系统复杂度相对于图像数量是准线性的（nearly linear），非常适合大规模场景 VGGT-LONG的论文和代码，重点关注里面回环检测相关的技术 VGGT-Long 的流程遵循：“Chunk it → Loop it → Align it” 的三阶段设计。回环匹配（Loop it）是在 chunk...