论文阅读_VilT
Learning Visual Language Representation from Web-scale Weak-supervised Data 基本信息 项目 内容 论文标题 Learning Visual Language Representation from Web-scale Weak-supervised Data 作者 作者单位 韩国科学技术院(KAIST) 时间 2021 发表会议/期刊 方法概览 特点 文章性质 输入 输出 所属领域 背景 在ViLT之前,主流的视觉-语言模型(如LXMERT, CLIP, ALIGN, UNITER等)通常采用以下架构: 独立的特征提取器: 使用一个预训练的视觉编码器(如ResNet或Faster R-CNN)将图像转换为一组区域特征(region features)或网格特征(grid...
论文阅读_Zero-1-to-3
Zero-Shot 3D Content Generation from a Single Image 基本信息 项目 内容 论文标题 Zero-Shot 3D Content Generation from a Single Image 作者 作者单位 加州大学圣地亚哥分校、英伟达、多伦多大学和麻省理工学院 时间 2023 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 从指定相机视点合成图像进一步生成三维模型 所属领域 新视图合成和 3D 形状重建 创新点 Zero1to3的核心是一个条件扩散模型(Conditional Diffusion Model),但它不是直接生成3D网格或点云,而是生成多视角的二维图像。 利用了强大的几何先验: Depth Estimation (深度估计): 模型首先使用一个预训练的单目深度估计模型(如MiDaS或DPT)从输入的单张2D图像中预测出一个粗略的深度图。这个深度图提供了关于物体表面距离的重要几何线索。 Camera Pose...
论文阅读_ImageSculpting
Image Sculpting: Precise Object Editing with 3D Geometry Control 通过结合3D几何和图形工具来编辑2D图像。Image Sculpting 将 2D 对象转换为 3D,直接在3D空间中编辑目标,然后高保真的渲染为2D图像。 Prob.Def input: one image,manipulation of the objects and their orientations in 3D space output:a high-quality edited 2D image 背景和相关工作 生成图像编辑:现有方法仅限于 2D 空间,通常依赖于文本指令:Prompt-to-Prompt [24]、Plug-and-Play [76]、InstructPix2Pix [10]、Imagic [34] 和 Object 3DIT [47] 然而,更具体的指令,如“将物体抬起 5 厘米并旋转 42 度”,不太可能成功,因为当前的生成模型无法仅通过文本提示来满足此类详细请求。 基于 2D...
论文阅读_MAE
An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 基本信息 项目 内容 论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 作者 Kaiming He 作者单位 Google Research 时间 2021 发表会议/期刊 ICCV 2021 全称 Masked Autoencoders,cv中的bert 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类 所属领域 在 MAE 之前,视觉自监督学习主要有两类方法: 对比学习(Contrastive Learning)如 SimCLR、MoCo:通过“拉近正样本,推远负样本”学习,需要精心设计数据增强和负样本 生成式建模如 VAE、iGPT:重建完整图像,计算成本高,关注低级细节(如像素) 能否像 BERT...
论文阅读_MASt3R-MVS
基本信息 项目 内容 论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者 作者单位 NAVER LABS Europe(欧洲Naver实验室) 时间 2025 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 一个 3D 点、一个置信度值和一个局部特征。 创新点 在 DUSt3R 前额外加一个 network 输出稠密的 local features,并添加 matching loss 来训练。最后引入一种快速相互匹配方案,能够将匹配速度提高几个数量级。 网络架构 如何匹配? 背景知识 匹配方法通常被归结为一个三步流程,首先提取稀疏且可重复的关键点,然后用局部不变特征描述它们,最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...
论文阅读_MASt3R-SFM
基本信息 项目 内容 论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者 作者单位 NAVER LABS Europe(欧洲Naver实验室) 时间 2024.6 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 一个 3D 点、一个置信度值和一个局部特征。 创新点 在 DUSt3R 前额外加一个 network 输出稠密的 local features,并添加 matching loss 来训练。最后引入一种快速相互匹配方案,能够将匹配速度提高几个数量级。 网络架构 如何匹配? 背景知识 匹配方法通常被归结为一个三步流程,首先提取稀疏且可重复的关键点,然后用局部不变特征描述它们,最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...
论文阅读_MASt3R-Slam
基本信息 项目 内容 论文标题 MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors 作者 Riku Murai, Eric Dexheimer, Andrew J. Davison 作者单位 Imperial College London(帝国理工) 时间 2024.6 发表会议/期刊 全称 方法概览 特点 文章性质 输入 图像对 输出 三维信息,图像位姿 所属领域 SLAM视觉同步定位和映射Visual simultaneous localisation and...
论文阅读_MASt3R
基本信息 项目 内容 论文标题 Grounding Image Matching in 3D with MASt3R 作者 作者单位 NAVER LABS Europe(欧洲Naver实验室) 时间 2024.6 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 一个 3D 点、一个置信度值和一个局部特征。 创新点 在 DUSt3R 前额外加一个 network 输出稠密的 local features,并添加 matching loss 来训练。最后引入一种快速相互匹配方案,能够将匹配速度提高几个数量级。 网络架构 如何匹配? 背景知识 匹配方法通常被归结为一个三步流程,首先提取稀疏且可重复的关键点,然后用局部不变特征描述它们,最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...
论文阅读_MVSFormer++
MVSFormer++ 基本信息 项目 内容 论文标题 MVSFormer++: Revealing the Devil in Transformer’s Details for Multi-View Stereo 作者 Chenjie Cao, Xinlin Ren, Yanwei Fu 第一作者单位 复旦大学数据科学学院 年份 2024 发表会议/期刊 ICLR 2024 摘要精简 现有基于 Transformer 的多视角立体匹配(MVS)方法未充分探索 Transformer 对不同 MVS 模块的深层影响,导致深度估计性能受限。为此,本文提出 MVSFormer++,通过最大化注意力机制的固有特性增强 MVS 流水线各组件:将跨视图信息融入预训练 DINOv2 模型以促进 MVS 学习;为特征编码器和代价体正则化分别设计适配的注意力机制(侧重特征聚合与空间聚合);挖掘并优化影响 Transformer 在 MVS 中性能的关键设计细节(归一化 3D 位置编码、自适应注意力缩放、层归一化位置)。在...
论文阅读_MoGe
基本信息 项目 内容 论文标题 MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervisio 作者 Ruicheng Wang1⋆ Sicheng Xu2 Cassie Dai3⋆ Jianfeng Xiang4⋆ Yu Deng2 Xin Tong2 Jiaolong Yang2† 作者单位 USTC Microsoft Research Tsinghua University 时间 2025 发表会议/期刊 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 具有未知尺度的仿射不变点图 所属领域 MGE:Monocular geometry...
