This is a 部落格 of outbreak_sen

发表于2025-12-03|论文阅读

Learning Visual Language Representation from Web-scale Weak-supervised Data 基本信息项目内容论文标题 Learning Visual Language Representation from Web-scale Weak-supervised Data 作者作者单位韩国科学技术院（KAIST）时间 2021 发表会议/期刊方法概览特点文章性质输入输出所属领域背景在ViLT之前，主流的视觉-语言模型（如LXMERT, CLIP, ALIGN, UNITER等）通常采用以下架构：独立的特征提取器：使用一个预训练的视觉编码器（如ResNet或Faster R-CNN）将图像转换为一组区域特征（region features）或网格特征（grid...

论文阅读_Zero-1-to-3

发表于2025-12-03|论文阅读

Zero-Shot 3D Content Generation from a Single Image 基本信息项目内容论文标题 Zero-Shot 3D Content Generation from a Single Image 作者作者单位加州大学圣地亚哥分校、英伟达、多伦多大学和麻省理工学院时间 2023 发表会议/期刊全称方法概览特点文章性质输入单张 RGB 图像输出从指定相机视点合成图像进一步生成三维模型所属领域新视图合成和 3D 形状重建创新点 Zero1to3的核心是一个条件扩散模型（Conditional Diffusion Model），但它不是直接生成3D网格或点云，而是生成多视角的二维图像。利用了强大的几何先验： Depth Estimation (深度估计): 模型首先使用一个预训练的单目深度估计模型（如MiDaS或DPT）从输入的单张2D图像中预测出一个粗略的深度图。这个深度图提供了关于物体表面距离的重要几何线索。 Camera Pose...

论文阅读_ImageSculpting

发表于2025-12-03|论文阅读

Image Sculpting: Precise Object Editing with 3D Geometry Control 通过结合3D几何和图形工具来编辑2D图像。Image Sculpting 将 2D 对象转换为 3D，直接在3D空间中编辑目标，然后高保真的渲染为2D图像。 Prob.Def input: one image,manipulation of the objects and their orientations in 3D space output:a high-quality edited 2D image 背景和相关工作生成图像编辑：现有方法仅限于 2D 空间，通常依赖于文本指令：Prompt-to-Prompt [24]、Plug-and-Play [76]、InstructPix2Pix [10]、Imagic [34] 和 Object 3DIT [47] 然而，更具体的指令，如“将物体抬起 5 厘米并旋转 42 度”，不太可能成功，因为当前的生成模型无法仅通过文本提示来满足此类详细请求。基于 2D...

论文阅读_MAE

发表于2025-12-03|论文阅读

An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 基本信息项目内容论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 作者 Kaiming He 作者单位 Google Research 时间 2021 发表会议/期刊 ICCV 2021 全称 Masked Autoencoders，cv中的bert 方法概览特点文章性质输入单张 RGB 图像输出分类所属领域在 MAE 之前，视觉自监督学习主要有两类方法：对比学习（Contrastive Learning）如 SimCLR、MoCo：通过“拉近正样本，推远负样本”学习，需要精心设计数据增强和负样本生成式建模如 VAE、iGPT：重建完整图像，计算成本高，关注低级细节（如像素）能否像 BERT...

论文阅读_MASt3R-MVS

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者作者单位 NAVER LABS Europe（欧洲Naver实验室）时间 2025 发表会议/期刊全称方法概览特点文章性质输入单张 RGB 图像输出所属领域一个 3D 点、一个置信度值和一个局部特征。创新点在 DUSt3R 前额外加一个 network 输出稠密的 local features，并添加 matching loss 来训练。最后引入一种快速相互匹配方案，能够将匹配速度提高几个数量级。网络架构如何匹配？背景知识匹配方法通常被归结为一个三步流程，首先提取稀疏且可重复的关键点，然后用局部不变特征描述它们，最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...

论文阅读_MASt3R-SFM

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者作者单位 NAVER LABS Europe（欧洲Naver实验室）时间 2024.6 发表会议/期刊全称方法概览特点文章性质输入单张 RGB 图像输出所属领域一个 3D 点、一个置信度值和一个局部特征。创新点在 DUSt3R 前额外加一个 network 输出稠密的 local features，并添加 matching loss 来训练。最后引入一种快速相互匹配方案，能够将匹配速度提高几个数量级。网络架构如何匹配？背景知识匹配方法通常被归结为一个三步流程，首先提取稀疏且可重复的关键点，然后用局部不变特征描述它们，最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...

论文阅读_MASt3R-Slam

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors 作者 Riku Murai, Eric Dexheimer, Andrew J. Davison 作者单位 Imperial College London（帝国理工）时间 2024.6 发表会议/期刊全称方法概览特点文章性质输入图像对输出三维信息，图像位姿所属领域 SLAM视觉同步定位和映射Visual simultaneous localisation and...

论文阅读_MASt3R

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Grounding Image Matching in 3D with MASt3R 作者作者单位 NAVER LABS Europe（欧洲Naver实验室）时间 2024.6 发表会议/期刊全称方法概览特点文章性质输入单张 RGB 图像输出所属领域一个 3D 点、一个置信度值和一个局部特征。创新点在 DUSt3R 前额外加一个 network 输出稠密的 local features，并添加 matching loss 来训练。最后引入一种快速相互匹配方案，能够将匹配速度提高几个数量级。网络架构如何匹配？背景知识匹配方法通常被归结为一个三步流程，首先提取稀疏且可重复的关键点，然后用局部不变特征描述它们，最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...

论文阅读_MVSFormer++

发表于2025-12-03|论文阅读

MVSFormer++ 基本信息项目内容论文标题 MVSFormer++: Revealing the Devil in Transformer’s Details for Multi-View Stereo 作者 Chenjie Cao, Xinlin Ren, Yanwei Fu 第一作者单位复旦大学数据科学学院年份 2024 发表会议/期刊 ICLR 2024 摘要精简现有基于 Transformer 的多视角立体匹配（MVS）方法未充分探索 Transformer 对不同 MVS 模块的深层影响，导致深度估计性能受限。为此，本文提出 MVSFormer++，通过最大化注意力机制的固有特性增强 MVS 流水线各组件：将跨视图信息融入预训练 DINOv2 模型以促进 MVS 学习；为特征编码器和代价体正则化分别设计适配的注意力机制（侧重特征聚合与空间聚合）；挖掘并优化影响 Transformer 在 MVS 中性能的关键设计细节（归一化 3D 位置编码、自适应注意力缩放、层归一化位置）。在...

论文阅读_MoGe

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervisio 作者 Ruicheng Wang1⋆ Sicheng Xu2 Cassie Dai3⋆ Jianfeng Xiang4⋆ Yu Deng2 Xin Tong2 Jiaolong Yang2† 作者单位 USTC Microsoft Research Tsinghua University 时间 2025 发表会议/期刊方法概览特点文章性质输入单张 RGB 图像输出具有未知尺度的仿射不变点图所属领域 MGE：Monocular geometry...