论文阅读_MASt3R-Slam

发表于2025-12-03|更新于2025-12-03|论文阅读

|浏览量:

基本信息

项目	内容
论文标题	MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors
作者	Riku Murai, Eric Dexheimer, Andrew J. Davison
作者单位	Imperial College London（帝国理工）
时间	2024.6
发表会议/期刊
全称

方法概览

特点	文章性质
输入	图像对
输出	三维信息，图像位姿
所属领域	SLAM视觉同步定位和映射Visual simultaneous localisation and mappin

创新点

提出首个以双视图三维重建（其实就是MASt3R输入双视角输出视角的点图）先验MASt3R为基础的实时SLAM系统。
SLAM领域最近的许多进展都遵循了DROID-SLAM的贡献。
通过最小化从相机中心到3D点的光线和当前像素查询的光线之间的角度误差来执行大规模并行匹配。
点图匹配、跟踪和局部融合、图构建和闭环检测以及二阶全局优化的高效技术。
1. 二阶全局优化：梯度下降收敛缓慢，我们利用高斯-牛顿优化来实现有效的大规模更新。

网络架构

背景知识

匹配方法通常被归结为一个三步流程，首先提取稀疏且可重复的关键点，然后用局部不变特征描述它们，最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D 重建流程中的成功。
基于关键点的方法通过将匹配简化为关键点袋（BoK）问题，丢弃了对应任务的全局几何上下文信息。这使得它们在具有重复模式或低纹理区域的情况下特别容易出错，而这些区域实际上对于局部描述符来说是不适定的。解决此问题的一种方法是在配对步骤中引入全局优化策略，通常利用一些关于匹配的先验知识。如SuperGlue。
但是，如果关键点及其描述符尚未编码足够的信息，则在匹配过程中利用全局上下文可能为时已晚。因此，另一个方向是考虑密集的整体匹配，即完全避免关键点，并一次匹配整个图像。如LoFTR将图像视为一个整体，并且得到的对应集是密集的。

文章作者: outbreak_sen

文章链接: http://outbreak-sen.github.io/2025/12/03/%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB_MASt3R-Slam/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen！

Muilt View Stereo

赞助

微信
支付宝

相关推荐

三维视觉几何大整理

李沐-AlexNet和卷积基础 ImageNet Classification With Deep Convolutional Neural Networks 俄罗斯人Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton 2012 在谷歌实习时候见到过这个人，汇报了这个工作。首个真正意义上的深度卷积神经网络摘要 ImageNet是一个很大的数据集超过1500万张在超过22,000个类别，取其中一部分1000个类在Imageet上top-1错误率37.5%，top-5错误率17.0%...

Bark模型微调

Bark模型微调 TTS模型/文本到语音（TTS）生成模型以下开放的、已支持训练的 TTS 模型：模型名是否支持训练特点架构类型 SpeechT5（HuggingFace） ✅ 支持 TTS、VC、ASR，多任务训练 Coqui-TTS（强烈推荐） ✅ 支持 Tacotron2/FastSpeech2/VITS ESPnet（工业级框架） ✅ 支持多种语音模型，配置稍复杂 YourTTS, VITS, GlowTTS ✅ Coqui-TTS/ESPnet 中均支持 VITS VAE + GAN + flow Bark GPT decoder-only Tacotron2 encoder-decoder + attention EnCodec 解码器 EnCodec 是由 Facebook FAIR 开源的神经压缩音频模型，可以高效地将音频压缩成离散 token，再解压回高质量语音。类似于 VQ-VAE（Vector Quantized Variational...

CUDA 环境的两种来源

🧩 一、CUDA 环境的两种来源 CUDA（Compute Unified Device Architecture）分为两部分：类型功能通常位置谁提供 CUDA Toolkit（开发套件）编译 CUDA 程序、包含 nvcc、头文件、静态库 /usr/local/cuda-* 你自己系统安装 CUDA Runtime（运行时库）运行 PyTorch / TensorFlow / cuDNN 等程序通常是 .so 动态库 PyTorch（或 conda 包）自动安装 👉 也就是说：系统 CUDA Toolkit：给开发者编译用（比如写 CUDA C++、编译自定义算子）。 conda/pip CUDA Runtime：给 PyTorch 运行用，不依赖系统 CUDA。 ⚙️ 二、本地 CUDA 与 conda CUDA 的区别对比项系统 CUDA Toolkit conda CUDA runtime 用途编译代码、开发运行 PyTorch、推理训练是否随 PyTorch 一起安装否是（通过...

FoundationStereo

FoundationStereo NVIDIA 2025 摘要（有本事别微调刷榜，我就是要做zero-shot）通过每个域的微调，深度立体匹配在基准数据集上取得了巨大进步。然而，实现强大的零镜头泛化（其他计算机视觉任务中基础模型的标志）对于立体匹配来说仍然具有挑战性。为此，我们首先构建了一个大规模（1M 立体对）合成训练数据集，具有较大的多样性和高照片级真实感，然后是一个自动自我管理管道来去除模棱两可的样本。然后，我们设计了许多网络架构组件来增强可扩展性，包括一个侧调功能主干，它适应了视觉基础模型中丰富的单目先验，以减轻 sim-to-real 的差距，以及用于有效成本量过滤的远程上下文推理。引言近半个世纪前第一个立体匹配算法出现，我们已经走过了漫长的道路。，最近的立体算法可以取得惊人的结果，几乎使最具挑战性的基准测试饱和。然而，对目标域的数据集进行微调仍然是获得竞争结果的首选方法。鉴于通过scaling...

阅读MASt3R-SLAM的代码，重点关注检索、回环部分通过MASt3R_ViTLarge_BaseDecoder_512_catmlpdpt_metric_retrieval_trainingfree生成特征进行检索，track成功进行全局因子图优化，track失败则回环检测，检测成功则再因子图优化，优化成功就可以继续，但是如果失败就直接continue，不添加到keyframe？MASt3R-SLAM 系统中的 RetrievalDatabase 并非传统的词袋模型，而是一个基于深度学习特征的高效图像检索系统复杂度相对于图像数量是准线性的（nearly linear），非常适合大规模场景 VGGT-LONG的论文和代码，重点关注里面回环检测相关的技术 VGGT-Long 的流程遵循：“Chunk it → Loop it → Align it” 的三阶段设计。回环匹配（Loop it）是在 chunk...