avatar
文章
210
标签
71
分类
15
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者
LogoThis is a 部落格 of outbreak_sen
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者

This is a 部落格 of outbreak_sen

论文阅读_VilT
发表于2025-12-03|论文阅读
Learning Visual Language Representation from Web-scale Weak-supervised Data 基本信息 项目 内容 论文标题 Learning Visual Language Representation from Web-scale Weak-supervised Data 作者 作者单位 韩国科学技术院(KAIST) 时间 2021 发表会议/期刊 方法概览 特点 文章性质 输入 输出 所属领域 背景 在ViLT之前,主流的视觉-语言模型(如LXMERT, CLIP, ALIGN, UNITER等)通常采用以下架构: 独立的特征提取器: 使用一个预训练的视觉编码器(如ResNet或Faster R-CNN)将图像转换为一组区域特征(region features)或网格特征(grid...
论文阅读_Zero-1-to-3
发表于2025-12-03|论文阅读
Zero-Shot 3D Content Generation from a Single Image 基本信息 项目 内容 论文标题 Zero-Shot 3D Content Generation from a Single Image 作者 作者单位 加州大学圣地亚哥分校、英伟达、多伦多大学和麻省理工学院 时间 2023 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 从指定相机视点合成图像进一步生成三维模型 所属领域 新视图合成和 3D 形状重建 创新点 Zero1to3的核心是一个条件扩散模型(Conditional Diffusion Model),但它不是直接生成3D网格或点云,而是生成多视角的二维图像。 利用了强大的几何先验: Depth Estimation (深度估计): 模型首先使用一个预训练的单目深度估计模型(如MiDaS或DPT)从输入的单张2D图像中预测出一个粗略的深度图。这个深度图提供了关于物体表面距离的重要几何线索。 Camera Pose...
论文阅读_ImageSculpting
发表于2025-12-03|论文阅读
Image Sculpting: Precise Object Editing with 3D Geometry Control 通过结合3D几何和图形工具来编辑2D图像。Image Sculpting 将 2D 对象转换为 3D,直接在3D空间中编辑目标,然后高保真的渲染为2D图像。 Prob.Def input: one image,manipulation of the objects and their orientations in 3D space output:a high-quality edited 2D image 背景和相关工作 生成图像编辑:现有方法仅限于 2D 空间,通常依赖于文本指令:Prompt-to-Prompt [24]、Plug-and-Play [76]、InstructPix2Pix [10]、Imagic [34] 和 Object 3DIT [47] 然而,更具体的指令,如“将物体抬起 5 厘米并旋转 42 度”,不太可能成功,因为当前的生成模型无法仅通过文本提示来满足此类详细请求。 基于 2D...
论文阅读_MAE
发表于2025-12-03|论文阅读
An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 基本信息 项目 内容 论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 作者 Kaiming He 作者单位 Google Research 时间 2021 发表会议/期刊 ICCV 2021 全称 Masked Autoencoders,cv中的bert 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类 所属领域 在 MAE 之前,视觉自监督学习主要有两类方法: 对比学习(Contrastive Learning)如 SimCLR、MoCo:通过“拉近正样本,推远负样本”学习,需要精心设计数据增强和负样本 生成式建模如 VAE、iGPT:重建完整图像,计算成本高,关注低级细节(如像素) 能否像 BERT...
论文阅读_MASt3R-MVS
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者 作者单位 NAVER LABS Europe(欧洲Naver实验室) 时间 2025 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 一个 3D 点、一个置信度值和一个局部特征。 创新点 在 DUSt3R 前额外加一个 network 输出稠密的 local features,并添加 matching loss 来训练。最后引入一种快速相互匹配方案,能够将匹配速度提高几个数量级。 网络架构 如何匹配? 背景知识 匹配方法通常被归结为一个三步流程,首先提取稀疏且可重复的关键点,然后用局部不变特征描述它们,最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...
论文阅读_MASt3R-SFM
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者 作者单位 NAVER LABS Europe(欧洲Naver实验室) 时间 2024.6 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 一个 3D 点、一个置信度值和一个局部特征。 创新点 在 DUSt3R 前额外加一个 network 输出稠密的 local features,并添加 matching loss 来训练。最后引入一种快速相互匹配方案,能够将匹配速度提高几个数量级。 网络架构 如何匹配? 背景知识 匹配方法通常被归结为一个三步流程,首先提取稀疏且可重复的关键点,然后用局部不变特征描述它们,最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...
论文阅读_MASt3R-Slam
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors 作者 Riku Murai, Eric Dexheimer, Andrew J. Davison 作者单位 Imperial College London(帝国理工) 时间 2024.6 发表会议/期刊 全称 方法概览 特点 文章性质 输入 图像对 输出 三维信息,图像位姿 所属领域 SLAM视觉同步定位和映射Visual simultaneous localisation and...
论文阅读_MASt3R
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 Grounding Image Matching in 3D with MASt3R 作者 作者单位 NAVER LABS Europe(欧洲Naver实验室) 时间 2024.6 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 一个 3D 点、一个置信度值和一个局部特征。 创新点 在 DUSt3R 前额外加一个 network 输出稠密的 local features,并添加 matching loss 来训练。最后引入一种快速相互匹配方案,能够将匹配速度提高几个数量级。 网络架构 如何匹配? 背景知识 匹配方法通常被归结为一个三步流程,首先提取稀疏且可重复的关键点,然后用局部不变特征描述它们,最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...
论文阅读_MVSFormer++
发表于2025-12-03|论文阅读
MVSFormer++ 基本信息 项目 内容 论文标题 MVSFormer++: Revealing the Devil in Transformer’s Details for Multi-View Stereo 作者 Chenjie Cao, Xinlin Ren, Yanwei Fu 第一作者单位 复旦大学数据科学学院 年份 2024 发表会议/期刊 ICLR 2024 摘要精简 现有基于 Transformer 的多视角立体匹配(MVS)方法未充分探索 Transformer 对不同 MVS 模块的深层影响,导致深度估计性能受限。为此,本文提出 MVSFormer++,通过最大化注意力机制的固有特性增强 MVS 流水线各组件:将跨视图信息融入预训练 DINOv2 模型以促进 MVS 学习;为特征编码器和代价体正则化分别设计适配的注意力机制(侧重特征聚合与空间聚合);挖掘并优化影响 Transformer 在 MVS 中性能的关键设计细节(归一化 3D 位置编码、自适应注意力缩放、层归一化位置)。在...
论文阅读_MoGe
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervisio 作者 Ruicheng Wang1⋆ Sicheng Xu2 Cassie Dai3⋆ Jianfeng Xiang4⋆ Yu Deng2 Xin Tong2 Jiaolong Yang2† 作者单位 USTC Microsoft Research Tsinghua University 时间 2025 发表会议/期刊 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 具有未知尺度的仿射不变点图 所属领域 MGE:Monocular geometry...
1…456…21
avatar
outbreak_sen
an interesting man
文章
210
标签
71
分类
15
Follow Me
公告
This is my Blog
最新文章
无标题2026-03-31
无标题2026-03-31
无标题2026-03-31
无标题2026-03-25
无标题2026-03-24
分类
  • swift2
  • 传统图形学1
  • 学习笔记1
  • 实践笔记2
  • 嵌入式1
  • 工具笔记10
  • 深度学习11
  • 点云配准6
标签
mesh easymocap SFM Mindspore 算子 transformer 硬触发 GAN生成对抗模型 LLVM 这也是一个测试 李沐 colmap shell siwft openclaw 三维生成 MuiltViewStereo nodejs 深度相机 生成 NLP 检测 视频理解 mindNLP 大恒 实习 匹配 VAE huggingface stereo CUDA Diffusion Mesh重建 多模态 leetcode Muilt View Stereo QT 4D重建 三维重建 Stereo
归档
  • 三月 2026 18
  • 一月 2026 1
  • 十二月 2025 159
  • 八月 2025 1
  • 七月 2025 3
  • 六月 2025 8
  • 三月 2025 3
  • 二月 2025 16
网站信息
文章数目 :
210
本站访客数 :
本站总浏览量 :
最后更新时间 :
©2019 - 2026 By outbreak_sen
框架 Hexo|主题 Butterfly