论文阅读_MoSca
MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds 基本信息 项目 内容 论文标题 MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds 作者 Jiahui Lei1 Yijia Weng2 Adam W. Harley2 Leonidas Guibas2 Kostas Daniilidis1,3 作者单位 宾夕法尼亚大学 斯坦福大学 Archimedes, Athena RC 时间 20241129axiv 发表会议/期刊 方法概览 特点 文章性质 输入 无位姿单目视频 输出 可渲染的动态场景,表示为一组动态高斯分布,并在相机参数未知的情况下恢复其焦距和位姿。 所属领域 4D重建 一句话总结做了什么 MoSca...
论文阅读_MoVieS
MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second 基本信息 项目 内容 论文标题 MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second一秒钟内实现运动感知 4D 动态视图合成 作者 Chenguo Lin1∗, Yuchen Lin1,3∗, Panwang Pan2†,Yifan Yu2, Honglei Yan2, Katerina Fragkiadaki3, Yadong Mu∗:平等贡献;†:项目负责人;‡:通讯作者。 作者单位 北京大学、字节跳动、卡内基梅隆大学 时间 20250714axiv 发表会议/期刊 方法概览 特点 文章性质 输入 单目视频 输出 4D 动态新颖视图: 所属领域 新视角生成 一句话总结做了什么 设计了前馈模型可在一秒钟内从单目视频中合成动态高斯然后合成4D...
论文阅读_SAM
基本信息 项目 内容 论文标题 End-to-End Object Detection with Transformers 作者 作者单位 Facebook AI 时间 2023 发表会议/期刊 论文别名 Segment Anything ModelCV 领域的 GPT-3”因为它首次实现了零样本泛化的图像分割无需任何微调,SAM 就能对任何图像中的任何物体进行分割,只要你给它一个提示(point, box, text, or mask)。 方法概览 特点 文章性质 输入 输出 所属领域 目标检测 创新点 给定一张图像和一个提示(prompt),SAM 输出一个精确的分割掩码(mask)。- 提示可以是: 一个点(是前景还是背景),一个边界框(bounding box),一段文本描述,已有掩码(用于细化) 网络架构 图像编码器使用 **Vision Transformer **(ViT) 在 SA-1B 数据集 上预训练(使用 DINO 和 MAE...
论文阅读_Slam3R
基本信息 项目 内容 论文标题 VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold 作者 陈宝权 作者单位 北京大学陈宝权团队联合香港大学 时间 2025 发表会议/期刊 CVPR Highlight 方法概览 特点 文章性质 输入 图片序列(SLAM定义可传入激光IMU等各种机器人传感 **输出 一个环境的几何/语义地图(Map):点云,稀疏的点云ORBSLAM,稠密的点云LSDSLAM,高斯场景 一条智能体的运动轨迹(Trajectory)图片位姿 片位姿 片位姿 所属领域 SLAM(Simultaneous Localization and Mapping, 背景 问题 说明 dense slam 现有密集SLAM方法在精度、完整性、效率中至少存在一项缺陷;单目SLAM系统常效率低下,如NICER-SLAM速度远低于1...
论文阅读_SpatialTracker
SpatialTracker: Tracking Any 2D Pixels in 3D Space 基本信息 项目 内容 论文标题 SpatialTracker: Tracking Any 2D Pixels in 3D Space 作者 Yuxi Xiao1,3* Qianqian Wang2* Shangzhan Zhang1,3 Nan Xue3 Sida Peng彭斯达1 Yujun Shen3 Xiaowei Zhou1†周晓魏∗:平等贡献;†:项目负责人;‡:通讯作者。 作者单位 浙江大学 UC伯克利 蚂蚁集团 时间 2024axiv 发表会议/期刊 方法概览 特点 文章性质 输入 单目视频 输出 3D 点轨迹 所属领域 点跟踪 一句话总结做了什么 跟踪 3D 空间中的 2D 像素。为了估计遮挡和复杂 3D 运动下的 2D 运动,将 2D 像素提升到 3D 中并在 3D...
论文阅读_SpatialTrackerV2
SpatialTrackerV2: 3D Point Tracking Made Easy3D 基本信息 项目 内容 论文标题 SpatialTrackerV2: 3D Point Tracking Made Easy3D 点跟踪变得简单 作者 Yuxi Xiao1∗ Jianyuan Wang2 Nan Xue3 Nikita Karaev2,4 Yuri Makarov4 Bingyi Kang5 Xing Zhu3 Hujun Bao1 Yujun Shen3 Xiaowei Zhou∗:平等贡献;†:项目负责人;‡:通讯作者。 作者单位 浙江大学 牛津大学 蚂蚁集团 Pixelwise AI 字节跳动种子(Bytedance Seed) 时间 20250719axiv 发表会议/期刊 方法概览 特点 文章性质 输入 单目视频 输出 3D 场景几何形状、相机姿势和 3D 点轨迹 所属领域 点跟踪,三维重建 一句话总结做了什么 从任意场景的单目视频中一次性生成一致的 3D 场景几何形状、相机姿势和 3D...
论文阅读_SwinTransformer
SwinTransformer 基本信息 项目 内容 论文标题 作者 作者单位 微软亚洲研究院(MSRA) 时间 2021 发表会议/期刊 论文别名 Shifted WindowTransformer 方法概览 特点 文章性质 输入 输出 所属领域 创新点 对于高分辨率图像,patch序列会非常长,导致计算量和内存消耗巨大,难以应用于目标检测、分割等需要处理高分辨率输入的任务。解决早期视觉Transformer(如ViT)在处理高分辨率图像时计算复杂度极高的问题 Swin Transformer = 分层Patch划分 + 窗口内自注意力 + 移位窗口连接 + Patch Merging下采样。 分层(Hierarchical)结构通过逐步合并patch来构建一个类似CNN的金字塔结构,从而生成多尺度的特征图。 Patch Partition:输入图像首先被分割成不重叠的 4x4 patch(或其他大小),每个 4x4 patch...
论文阅读_ThreeStudio
ThreeStudio threestudio是今年3D AIGC领域内很好的开源项目,以统一的框架集成实现了**| ProlificDreamer | DreamFusion | Magic3D | SJC | Latent-NeRF | Fantasia3D | TextMesh | | Zero-1-to-3 | Magic123 | HiFA | SDI | | InstructNeRF2NeRF | Control4D |**项目,覆盖了text prompts, single images和few-shot images为condition的3D 生成。深度学习框架用的是pytorch lighting
论文阅读_VGG
基本信息 项目 内容 论文标题 Very Deep Convolutional Networks for Large-Scale Image Recognition_ 作者 作者单位 牛津大学 Visual Geometry Group(VGG) 时间 2014 发表会议/期刊 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视觉 Transformer 创新点 证明了网络深度对性能的重要性,提出了结构简洁、可复用的“小卷积核堆叠”设计范式。AlexNet(8 层)卷积核大(11×11, 5×5),难以扩展 所有卷积层都使用 3×3 卷积核,步长为 1,填充为 1 多个 3×3 卷积堆叠可以模拟大感受野,减少参数,增加非线性(更多 ReLU): 两个 3×3 卷积 ≈ 一个 5×5 卷积(感受野 5×5) 三个 3×3 卷积 ≈ 一个 7×7 卷积(感受野 7×7) VGG 探索了从 11 层到 19 层的多种网络结构。 使用 ReLU 和 Dropout,-...
论文阅读_VGGT-LONG
基本信息 项目 内容 论文标题 VGGT-Long: Chunk it, Loop it, Align it– Pushing VGGT’s Limits on Kilometer-scale Long RGB Sequences 作者 Kai Deng, Zexin Ti, Jiawei Xu, Jian Yang, Jin Xie 作者单位 南开大学;南京大学 时间 2025 发表会议/期刊 方法概览 特点 文章性质 输入 图片序列(SLAM定义可传入激光IMU等各种机器人传感 **输出 一个环境的几何/语义地图(Map):点云,稀疏的点云ORBSLAM,稠密的点云LSDSLAM,高斯场景 一条智能体的运动轨迹(Trajectory)图片位姿 片位姿 片位姿 所属领域 SLAM(Simultaneous Localization and Mapping, 背景 问题 说明 面对室外长序列数据场景 CUT3R, Fast3R存在严重的漂移问题MASt3R-SLAM,...
