论文阅读_MASt3R-SFM
基本信息 项目 内容 论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者 作者单位 NAVER LABS Europe(欧洲Naver实验室) 时间 2024.6 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 一个 3D 点、一个置信度值和一个局部特征。 创新点 在 DUSt3R 前额外加一个 network 输出稠密的 local features,并添加 matching loss 来训练。最后引入一种快速相互匹配方案,能够将匹配速度提高几个数量级。 网络架构 如何匹配? 背景知识 匹配方法通常被归结为一个三步流程,首先提取稀疏且可重复的关键点,然后用局部不变特征描述它们,最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...
论文阅读_MASt3R-Slam
基本信息 项目 内容 论文标题 MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors 作者 Riku Murai, Eric Dexheimer, Andrew J. Davison 作者单位 Imperial College London(帝国理工) 时间 2024.6 发表会议/期刊 全称 方法概览 特点 文章性质 输入 图像对 输出 三维信息,图像位姿 所属领域 SLAM视觉同步定位和映射Visual simultaneous localisation and...
论文阅读_MASt3R
基本信息 项目 内容 论文标题 Grounding Image Matching in 3D with MASt3R 作者 作者单位 NAVER LABS Europe(欧洲Naver实验室) 时间 2024.6 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 一个 3D 点、一个置信度值和一个局部特征。 创新点 在 DUSt3R 前额外加一个 network 输出稠密的 local features,并添加 matching loss 来训练。最后引入一种快速相互匹配方案,能够将匹配速度提高几个数量级。 网络架构 如何匹配? 背景知识 匹配方法通常被归结为一个三步流程,首先提取稀疏且可重复的关键点,然后用局部不变特征描述它们,最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...
论文阅读_MVSFormer++
MVSFormer++ 基本信息 项目 内容 论文标题 MVSFormer++: Revealing the Devil in Transformer’s Details for Multi-View Stereo 作者 Chenjie Cao, Xinlin Ren, Yanwei Fu 第一作者单位 复旦大学数据科学学院 年份 2024 发表会议/期刊 ICLR 2024 摘要精简 现有基于 Transformer 的多视角立体匹配(MVS)方法未充分探索 Transformer 对不同 MVS 模块的深层影响,导致深度估计性能受限。为此,本文提出 MVSFormer++,通过最大化注意力机制的固有特性增强 MVS 流水线各组件:将跨视图信息融入预训练 DINOv2 模型以促进 MVS 学习;为特征编码器和代价体正则化分别设计适配的注意力机制(侧重特征聚合与空间聚合);挖掘并优化影响 Transformer 在 MVS 中性能的关键设计细节(归一化 3D 位置编码、自适应注意力缩放、层归一化位置)。在...
论文阅读_MoGe
基本信息 项目 内容 论文标题 MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervisio 作者 Ruicheng Wang1⋆ Sicheng Xu2 Cassie Dai3⋆ Jianfeng Xiang4⋆ Yu Deng2 Xin Tong2 Jiaolong Yang2† 作者单位 USTC Microsoft Research Tsinghua University 时间 2025 发表会议/期刊 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 具有未知尺度的仿射不变点图 所属领域 MGE:Monocular geometry...
论文阅读_MoSca
MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds 基本信息 项目 内容 论文标题 MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds 作者 Jiahui Lei1 Yijia Weng2 Adam W. Harley2 Leonidas Guibas2 Kostas Daniilidis1,3 作者单位 宾夕法尼亚大学 斯坦福大学 Archimedes, Athena RC 时间 20241129axiv 发表会议/期刊 方法概览 特点 文章性质 输入 无位姿单目视频 输出 可渲染的动态场景,表示为一组动态高斯分布,并在相机参数未知的情况下恢复其焦距和位姿。 所属领域 4D重建 一句话总结做了什么 MoSca...
论文阅读_MoVieS
MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second 基本信息 项目 内容 论文标题 MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second一秒钟内实现运动感知 4D 动态视图合成 作者 Chenguo Lin1∗, Yuchen Lin1,3∗, Panwang Pan2†,Yifan Yu2, Honglei Yan2, Katerina Fragkiadaki3, Yadong Mu∗:平等贡献;†:项目负责人;‡:通讯作者。 作者单位 北京大学、字节跳动、卡内基梅隆大学 时间 20250714axiv 发表会议/期刊 方法概览 特点 文章性质 输入 单目视频 输出 4D 动态新颖视图: 所属领域 新视角生成 一句话总结做了什么 设计了前馈模型可在一秒钟内从单目视频中合成动态高斯然后合成4D...
论文阅读_SAM
基本信息 项目 内容 论文标题 End-to-End Object Detection with Transformers 作者 作者单位 Facebook AI 时间 2023 发表会议/期刊 论文别名 Segment Anything ModelCV 领域的 GPT-3”因为它首次实现了零样本泛化的图像分割无需任何微调,SAM 就能对任何图像中的任何物体进行分割,只要你给它一个提示(point, box, text, or mask)。 方法概览 特点 文章性质 输入 输出 所属领域 目标检测 创新点 给定一张图像和一个提示(prompt),SAM 输出一个精确的分割掩码(mask)。- 提示可以是: 一个点(是前景还是背景),一个边界框(bounding box),一段文本描述,已有掩码(用于细化) 网络架构 图像编码器使用 **Vision Transformer **(ViT) 在 SA-1B 数据集 上预训练(使用 DINO 和 MAE...
论文阅读_Slam3R
基本信息 项目 内容 论文标题 VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold 作者 陈宝权 作者单位 北京大学陈宝权团队联合香港大学 时间 2025 发表会议/期刊 CVPR Highlight 方法概览 特点 文章性质 输入 图片序列(SLAM定义可传入激光IMU等各种机器人传感 **输出 一个环境的几何/语义地图(Map):点云,稀疏的点云ORBSLAM,稠密的点云LSDSLAM,高斯场景 一条智能体的运动轨迹(Trajectory)图片位姿 片位姿 片位姿 所属领域 SLAM(Simultaneous Localization and Mapping, 背景 问题 说明 dense slam 现有密集SLAM方法在精度、完整性、效率中至少存在一项缺陷;单目SLAM系统常效率低下,如NICER-SLAM速度远低于1...
论文阅读_SpatialTracker
SpatialTracker: Tracking Any 2D Pixels in 3D Space 基本信息 项目 内容 论文标题 SpatialTracker: Tracking Any 2D Pixels in 3D Space 作者 Yuxi Xiao1,3* Qianqian Wang2* Shangzhan Zhang1,3 Nan Xue3 Sida Peng彭斯达1 Yujun Shen3 Xiaowei Zhou1†周晓魏∗:平等贡献;†:项目负责人;‡:通讯作者。 作者单位 浙江大学 UC伯克利 蚂蚁集团 时间 2024axiv 发表会议/期刊 方法概览 特点 文章性质 输入 单目视频 输出 3D 点轨迹 所属领域 点跟踪 一句话总结做了什么 跟踪 3D 空间中的 2D 像素。为了估计遮挡和复杂 3D 运动下的 2D 运动,将 2D 像素提升到 3D 中并在 3D...
