This is a 部落格 of outbreak_sen

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者作者单位 NAVER LABS Europe（欧洲Naver实验室）时间 2024.6 发表会议/期刊全称方法概览特点文章性质输入单张 RGB 图像输出所属领域一个 3D 点、一个置信度值和一个局部特征。创新点在 DUSt3R 前额外加一个 network 输出稠密的 local features，并添加 matching loss 来训练。最后引入一种快速相互匹配方案，能够将匹配速度提高几个数量级。网络架构如何匹配？背景知识匹配方法通常被归结为一个三步流程，首先提取稀疏且可重复的关键点，然后用局部不变特征描述它们，最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...

论文阅读_MASt3R-Slam

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors 作者 Riku Murai, Eric Dexheimer, Andrew J. Davison 作者单位 Imperial College London（帝国理工）时间 2024.6 发表会议/期刊全称方法概览特点文章性质输入图像对输出三维信息，图像位姿所属领域 SLAM视觉同步定位和映射Visual simultaneous localisation and...

论文阅读_MASt3R

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Grounding Image Matching in 3D with MASt3R 作者作者单位 NAVER LABS Europe（欧洲Naver实验室）时间 2024.6 发表会议/期刊全称方法概览特点文章性质输入单张 RGB 图像输出所属领域一个 3D 点、一个置信度值和一个局部特征。创新点在 DUSt3R 前额外加一个 network 输出稠密的 local features，并添加 matching loss 来训练。最后引入一种快速相互匹配方案，能够将匹配速度提高几个数量级。网络架构如何匹配？背景知识匹配方法通常被归结为一个三步流程，首先提取稀疏且可重复的关键点，然后用局部不变特征描述它们，最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...

论文阅读_MVSFormer++

发表于2025-12-03|论文阅读

MVSFormer++ 基本信息项目内容论文标题 MVSFormer++: Revealing the Devil in Transformer’s Details for Multi-View Stereo 作者 Chenjie Cao, Xinlin Ren, Yanwei Fu 第一作者单位复旦大学数据科学学院年份 2024 发表会议/期刊 ICLR 2024 摘要精简现有基于 Transformer 的多视角立体匹配（MVS）方法未充分探索 Transformer 对不同 MVS 模块的深层影响，导致深度估计性能受限。为此，本文提出 MVSFormer++，通过最大化注意力机制的固有特性增强 MVS 流水线各组件：将跨视图信息融入预训练 DINOv2 模型以促进 MVS 学习；为特征编码器和代价体正则化分别设计适配的注意力机制（侧重特征聚合与空间聚合）；挖掘并优化影响 Transformer 在 MVS 中性能的关键设计细节（归一化 3D 位置编码、自适应注意力缩放、层归一化位置）。在...

论文阅读_MoGe

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervisio 作者 Ruicheng Wang1⋆ Sicheng Xu2 Cassie Dai3⋆ Jianfeng Xiang4⋆ Yu Deng2 Xin Tong2 Jiaolong Yang2† 作者单位 USTC Microsoft Research Tsinghua University 时间 2025 发表会议/期刊方法概览特点文章性质输入单张 RGB 图像输出具有未知尺度的仿射不变点图所属领域 MGE：Monocular geometry...

论文阅读_MoSca

发表于2025-12-03|论文阅读

MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds 基本信息项目内容论文标题 MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds 作者 Jiahui Lei1 Yĳia Weng2 Adam W. Harley2 Leonidas Guibas2 Kostas Daniilidis1,3 作者单位宾夕法尼亚大学斯坦福大学 Archimedes, Athena RC 时间 20241129axiv 发表会议/期刊方法概览特点文章性质输入无位姿单目视频输出可渲染的动态场景，表示为一组动态高斯分布，并在相机参数未知的情况下恢复其焦距和位姿。所属领域 4D重建一句话总结做了什么 MoSca...

论文阅读_MoVieS

发表于2025-12-03|论文阅读

MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second 基本信息项目内容论文标题 MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second一秒钟内实现运动感知 4D 动态视图合成作者 Chenguo Lin1∗, Yuchen Lin1,3∗, Panwang Pan2†,Yifan Yu2, Honglei Yan2, Katerina Fragkiadaki3, Yadong Mu∗：平等贡献;†：项目负责人;‡：通讯作者。作者单位北京大学、字节跳动、卡内基梅隆大学时间 20250714axiv 发表会议/期刊方法概览特点文章性质输入单目视频输出 4D 动态新颖视图：所属领域新视角生成一句话总结做了什么设计了前馈模型可在一秒钟内从单目视频中合成动态高斯然后合成4D...

论文阅读_SAM

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 End-to-End Object Detection with Transformers 作者作者单位 Facebook AI 时间 2023 发表会议/期刊论文别名 Segment Anything ModelCV 领域的 GPT-3”因为它首次实现了零样本泛化的图像分割无需任何微调，SAM 就能对任何图像中的任何物体进行分割，只要你给它一个提示（point, box, text, or mask）。方法概览特点文章性质输入输出所属领域目标检测创新点给定一张图像和一个提示（prompt），SAM 输出一个精确的分割掩码（mask）。- 提示可以是：一个点（是前景还是背景），一个边界框（bounding box），一段文本描述，已有掩码（用于细化）网络架构图像编码器使用 **Vision Transformer **(ViT) 在 SA-1B 数据集上预训练（使用 DINO 和 MAE...

论文阅读_Slam3R

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold 作者陈宝权作者单位北京大学陈宝权团队联合香港大学时间 2025 发表会议/期刊 CVPR Highlight 方法概览特点文章性质输入图片序列（SLAM定义可传入激光IMU等各种机器人传感 **输出一个环境的几何/语义地图（Map）：点云，稀疏的点云ORBSLAM，稠密的点云LSDSLAM，高斯场景一条智能体的运动轨迹（Trajectory）图片位姿片位姿片位姿所属领域 SLAM（Simultaneous Localization and Mapping，背景问题说明 dense slam 现有密集SLAM方法在精度、完整性、效率中至少存在一项缺陷；单目SLAM系统常效率低下，如NICER-SLAM速度远低于1...

论文阅读_SpatialTracker

发表于2025-12-03|论文阅读

SpatialTracker: Tracking Any 2D Pixels in 3D Space 基本信息项目内容论文标题 SpatialTracker: Tracking Any 2D Pixels in 3D Space 作者 Yuxi Xiao1,3* Qianqian Wang2* Shangzhan Zhang1,3 Nan Xue3 Sida Peng彭斯达1 Yujun Shen3 Xiaowei Zhou1†周晓魏∗：平等贡献;†：项目负责人;‡：通讯作者。作者单位浙江大学 UC伯克利蚂蚁集团时间 2024axiv 发表会议/期刊方法概览特点文章性质输入单目视频输出 3D 点轨迹所属领域点跟踪一句话总结做了什么跟踪 3D 空间中的 2D 像素。为了估计遮挡和复杂 3D 运动下的 2D 运动，将 2D 像素提升到 3D 中并在 3D...