This is a 部落格 of outbreak_sen

发表于2025-12-03|论文阅读

CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion 基本信息项目内容论文标题 CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion 作者 Philippe Weinzaepfel, Vincent Leroy, Thomas Lucas, Romain Bregier, Yohann Cabon, Vaibhav Arora, Leonid Antsfeld, Boris Chidlovskii, Gabriela Csurka, Jerome Revaud 作者单位 NAVER LABS...

论文阅读_CroCo v2

发表于2025-12-03|论文阅读

CroCo v2 相比第一篇工作的核心进步点 CroCo v2 作为 CroCo 系列的第二篇工作，针对第一篇的核心局限（合成数据依赖、泛化性不足、模型能力有限）进行了全方位升级，最终实现从 “室内 3D 专用模型” 到 “通用几何任务 SOTA 模型” 的跨越，进步点可归纳为以下 6 个关键维度： 1. 数据层面：从 “合成单一” 到 “真实大规模” 第一篇局限：仅依赖 Habitat 模拟器生成的 180 万对合成室内图像对，场景单一、缺乏真实世界噪声（光照、遮挡、纹理差异），导致泛化性差。 v2 改进：大规模收集530 万对真实世界图像对，覆盖室内（ARKitScenes、IndoorVL）、户外街道（3DStreetView）、地标（MegaDepth）等多场景，数据多样性远超第一篇。提出 “重叠度控制 + 贪心选对” 策略：通过 3D 网格、LiDAR、SfM 重建计算图像对的共视率（IoU），筛选共视率≈0.5 的优质对（避免任务过难 / 过易），同时保证数据多样性。效果：模型鲁棒性显著提升，在真实场景...

论文阅读_DETR

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 End-to-End Object Detection with Transformers 作者作者单位 Facebook AI 时间 2020 发表会议/期刊 ECCV20 论文别名 DEtection TRansformer 方法概览特点文章性质输入输出所属领域目标检测在 DETR 出现之前，主流目标检测器（如 Faster R-CNN、YOLO、SSD）存在以下问题：问题说明 Anchor 机制复杂需预设大量 anchor boxes，超参数多，设计繁琐 NMS 后处理非极大值抑制（NMS）不可导，无法端到端训练多阶段设计 RPN + RoI Pooling + 分类回归，流程复杂训练不稳定正负样本不平衡、anchor 匹配策略复杂创新点首次将 Transformer 架构成功应用于目标检测任务，摒弃了传统检测器中复杂的组件如...

论文阅读_DINO

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Emerging Properties in Self-Supervised Vision Transformers 作者作者单位 Meta AI 时间 2021 发表会议/期刊全称 Self-Distillation with No Labels 方法概览特点文章性质输入单张 RGB 图像输出所属领域分类，语义分割在 DINO 之前，主流的自监督方法有：对比学习（如 MoCo、SimCLR）：需要负样本，显存消耗大生成式模型（如 MAE）：重建像素，可能关注低级细节创新点通过“学生-教师”自蒸馏框架，无需任何标签，让 Vision Transformer（ViT）自动学习强大的视觉表征，并且在训练过程中涌现出语义分割、定位等能力。自蒸馏框架（Student-Teacher...

论文阅读_DPT

发表于2025-12-03|论文阅读

DPT: Vision Transformers for Dense Prediction 基本信息项目内容论文标题 Vision Transformers for Dense Prediction 作者 Rene Ranftl, Alexey Bochkovskiy, Vladlen Koltun 作者单位 Intel Labs 时间 2021 发表会议/期刊 ICCV 2021 (arXiv preprint 2020) 方法概览特点文章性质输入单张RGB图像输出密集预测图（如深度图、语义分割图）所属领域密集预测、深度估计、语义分割摘要精简本文提出了密集预测Transformer（DPT），一种利用Vision...

论文阅读_DROID-SLAM

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras 作者 Zachary Teed ，Jia Deng 通讯是ImageNet的一作。作者单位 Princeton University 时间发表会议/期刊方法概览特点文章性质输入图片序列（SLAM定义可传入激光IMU等各种机器人传感 **输出一个环境的几何/语义地图（Map）：点云，稀疏的点云ORBSLAM，稠密的点云LSDSLAM，高斯场景一条智能体的运动轨迹（Trajectory）图片位姿片位姿片位姿所属领域 SLAM（Simultaneous Localization and Mapping，创新点把Visual-SLAM问题使用深度神经网络直接端到端的实现了，并且取得了比以往传统SLAM方案更高的精度和鲁棒性。

论文阅读_DreamBooth

发表于2025-12-03|论文阅读

DreamBooth：Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 微调文生图扩散模型的方法，最大的特点是Subject-Driven，针对某一个特定的主体，生成这个主体可以是一个动物或者某个物体，包括人都是可以的。有特定小狗的一些照片，一般 3-5 张就能生成模型没有见过它做的事情的图片，比如说去到了这个希腊，去游泳，这都是模型没有见到过的照片，但是模型却能生成出来。并且这些生成的图片都有很高的保真度，能够保持这个物体的主要特征。 Probdef 输入：提示词和一个给定的很小量的 reference set，比如一个狗的三张图输出：模仿生成该 set 中所指定提示词的图片，比如狗在南极的图背景： diffusion models这些模型实现了从给定文本提示中高质量和多样化的图像合成。但是缺少能够通过一个给定的很小量的 reference set ，去模仿生成该 set 中所指定 subject...

DriveMVS

发表于2025-12-03|论文阅读

DriveMVS 基本信息项目内容论文标题 LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving 作者杨胜 (Sheng Yang)¹, 张涛 (Tao Zhang)² 作者单位 ¹菜鸟网络, 阿里巴巴集团; ²哈尔滨工业大学时间 2025 发表会议/期刊 arXiv预印本 (根据文内参考文献推测为CVPR/ICCV级别工作，但本文为arXiv:2509.13414) 特点文章性质输入时序长度为 T 的序列数据，单步输入包含参考图像、N 张源图像、所有视角的相机内参 + 外参（位姿）、所有视角的稀疏 LiDAR 度量提示；支持单帧 / 时序输入，非强制时序但时序输入可实现时间一致性输出逐像素的绝对度量深度图D^(t)∈RH×W，时序输出可保证帧间深度的时间一致性所属领域自动驾驶场景下的时空多视图立体匹配深度估计 1....

论文阅读_EffiMVSNet

发表于2025-12-03|论文阅读

Adaptive Feature Enhanced Multi-View Stereo With Epipolar Line Information Aggregation 基本信息项目内容论文标题 Adaptive Feature Enhanced Multi-View Stereo With Epipolar Line Information Aggregation 作者 Shaoqian Wang, Bo Li, Jian Yang, Yuchao Dai 作者单位西北工业大学 (School of Electronics and Information, Northwestern Polytechnical University) 时间 2024 发表会议/期刊 IEEE Robotics and Automation Letters (LRA), Vol. 9, No. 11, November...

论文阅读_GGEV

发表于2025-12-03|论文阅读

GGEV Generalized Geometry Encoding Volume for Real-time Stereo Matching 基本信息项目内容论文标题 Generalized Geometry Encoding Volume for Real-time Stereo Matching 作者 Jiaxin Liu, Gangwei Xu, Xianqi Wang, Chengliang Zhang, Xin Yang 作者单位华中科技大学 (Huazhong University of Science and Technology) 时间 2025 发表会议/期刊未明确标注（预印本，可能为CVPR/ICCV等会议投稿）方法概览特点文章性质输入一对校正后的立体图像（左右视图）输出稠密视差图所属领域计算机视觉，立体匹配，实时深度估计 1....