This is a 部落格 of outbreak_sen

发表于2025-12-03|论文阅读

MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds 基本信息项目内容论文标题 MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds 作者 Jiahui Lei1 Yĳia Weng2 Adam W. Harley2 Leonidas Guibas2 Kostas Daniilidis1,3 作者单位宾夕法尼亚大学斯坦福大学 Archimedes, Athena RC 时间 20241129axiv 发表会议/期刊方法概览特点文章性质输入无位姿单目视频输出可渲染的动态场景，表示为一组动态高斯分布，并在相机参数未知的情况下恢复其焦距和位姿。所属领域 4D重建一句话总结做了什么 MoSca...

论文阅读_MoVieS

发表于2025-12-03|论文阅读

MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second 基本信息项目内容论文标题 MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second一秒钟内实现运动感知 4D 动态视图合成作者 Chenguo Lin1∗, Yuchen Lin1,3∗, Panwang Pan2†,Yifan Yu2, Honglei Yan2, Katerina Fragkiadaki3, Yadong Mu∗：平等贡献;†：项目负责人;‡：通讯作者。作者单位北京大学、字节跳动、卡内基梅隆大学时间 20250714axiv 发表会议/期刊方法概览特点文章性质输入单目视频输出 4D 动态新颖视图：所属领域新视角生成一句话总结做了什么设计了前馈模型可在一秒钟内从单目视频中合成动态高斯然后合成4D...

论文阅读_SAM

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 End-to-End Object Detection with Transformers 作者作者单位 Facebook AI 时间 2023 发表会议/期刊论文别名 Segment Anything ModelCV 领域的 GPT-3”因为它首次实现了零样本泛化的图像分割无需任何微调，SAM 就能对任何图像中的任何物体进行分割，只要你给它一个提示（point, box, text, or mask）。方法概览特点文章性质输入输出所属领域目标检测创新点给定一张图像和一个提示（prompt），SAM 输出一个精确的分割掩码（mask）。- 提示可以是：一个点（是前景还是背景），一个边界框（bounding box），一段文本描述，已有掩码（用于细化）网络架构图像编码器使用 **Vision Transformer **(ViT) 在 SA-1B 数据集上预训练（使用 DINO 和 MAE...

论文阅读_Slam3R

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold 作者陈宝权作者单位北京大学陈宝权团队联合香港大学时间 2025 发表会议/期刊 CVPR Highlight 方法概览特点文章性质输入图片序列（SLAM定义可传入激光IMU等各种机器人传感 **输出一个环境的几何/语义地图（Map）：点云，稀疏的点云ORBSLAM，稠密的点云LSDSLAM，高斯场景一条智能体的运动轨迹（Trajectory）图片位姿片位姿片位姿所属领域 SLAM（Simultaneous Localization and Mapping，背景问题说明 dense slam 现有密集SLAM方法在精度、完整性、效率中至少存在一项缺陷；单目SLAM系统常效率低下，如NICER-SLAM速度远低于1...

论文阅读_SpatialTracker

发表于2025-12-03|论文阅读

SpatialTracker: Tracking Any 2D Pixels in 3D Space 基本信息项目内容论文标题 SpatialTracker: Tracking Any 2D Pixels in 3D Space 作者 Yuxi Xiao1,3* Qianqian Wang2* Shangzhan Zhang1,3 Nan Xue3 Sida Peng彭斯达1 Yujun Shen3 Xiaowei Zhou1†周晓魏∗：平等贡献;†：项目负责人;‡：通讯作者。作者单位浙江大学 UC伯克利蚂蚁集团时间 2024axiv 发表会议/期刊方法概览特点文章性质输入单目视频输出 3D 点轨迹所属领域点跟踪一句话总结做了什么跟踪 3D 空间中的 2D 像素。为了估计遮挡和复杂 3D 运动下的 2D 运动，将 2D 像素提升到 3D 中并在 3D...

论文阅读_SpatialTrackerV2

发表于2025-12-03|论文阅读

SpatialTrackerV2: 3D Point Tracking Made Easy3D 基本信息项目内容论文标题 SpatialTrackerV2: 3D Point Tracking Made Easy3D 点跟踪变得简单作者 Yuxi Xiao1∗ Jianyuan Wang2 Nan Xue3 Nikita Karaev2,4 Yuri Makarov4 Bingyi Kang5 Xing Zhu3 Hujun Bao1 Yujun Shen3 Xiaowei Zhou∗：平等贡献;†：项目负责人;‡：通讯作者。作者单位浙江大学牛津大学蚂蚁集团 Pixelwise AI 字节跳动种子（Bytedance Seed）时间 20250719axiv 发表会议/期刊方法概览特点文章性质输入单目视频输出 3D 场景几何形状、相机姿势和 3D 点轨迹所属领域点跟踪，三维重建一句话总结做了什么从任意场景的单目视频中一次性生成一致的 3D 场景几何形状、相机姿势和 3D...

论文阅读_SwinTransformer

发表于2025-12-03|论文阅读

SwinTransformer 基本信息项目内容论文标题作者作者单位微软亚洲研究院（MSRA）时间 2021 发表会议/期刊论文别名 Shifted WindowTransformer 方法概览特点文章性质输入输出所属领域创新点对于高分辨率图像，patch序列会非常长，导致计算量和内存消耗巨大，难以应用于目标检测、分割等需要处理高分辨率输入的任务。解决早期视觉Transformer（如ViT）在处理高分辨率图像时计算复杂度极高的问题 Swin Transformer = 分层Patch划分 + 窗口内自注意力 + 移位窗口连接 + Patch Merging下采样。分层（Hierarchical）结构通过逐步合并patch来构建一个类似CNN的金字塔结构，从而生成多尺度的特征图。 Patch Partition：输入图像首先被分割成不重叠的 4x4 patch（或其他大小），每个 4x4 patch...

论文阅读_ThreeStudio

发表于2025-12-03|论文阅读

论文阅读_VGG

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Very Deep Convolutional Networks for Large-Scale Image Recognition_ 作者作者单位牛津大学 Visual Geometry Group（VGG）时间 2014 发表会议/期刊方法概览特点文章性质输入单张 RGB 图像输出分类、分割所属领域视觉 Transformer 创新点证明了网络深度对性能的重要性，提出了结构简洁、可复用的“小卷积核堆叠”设计范式。AlexNet（8 层）卷积核大（11×11, 5×5），难以扩展所有卷积层都使用 3×3 卷积核，步长为 1，填充为 1 多个 3×3 卷积堆叠可以模拟大感受野，减少参数，增加非线性（更多 ReLU）：两个 3×3 卷积 ≈ 一个 5×5 卷积（感受野 5×5）三个 3×3 卷积 ≈ 一个 7×7 卷积（感受野 7×7） VGG 探索了从 11 层到 19 层的多种网络结构。使用 ReLU 和 Dropout，-...

论文阅读_VGGT-LONG

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 VGGT-Long: Chunk it, Loop it, Align it– Pushing VGGT’s Limits on Kilometer-scale Long RGB Sequences 作者 Kai Deng, Zexin Ti, Jiawei Xu, Jian Yang, Jin Xie 作者单位南开大学；南京大学时间 2025 发表会议/期刊方法概览特点文章性质输入图片序列（SLAM定义可传入激光IMU等各种机器人传感 **输出一个环境的几何/语义地图（Map）：点云，稀疏的点云ORBSLAM，稠密的点云LSDSLAM，高斯场景一条智能体的运动轨迹（Trajectory）图片位姿片位姿片位姿所属领域 SLAM（Simultaneous Localization and Mapping，背景问题说明面对室外长序列数据场景 CUT3R, Fast3R存在严重的漂移问题MASt3R-SLAM,...