论文阅读_CroCo
CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion 基本信息 项目 内容 论文标题 CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion 作者 Philippe Weinzaepfel, Vincent Leroy, Thomas Lucas, Romain Bregier, Yohann Cabon, Vaibhav Arora, Leonid Antsfeld, Boris Chidlovskii, Gabriela Csurka, Jerome Revaud 作者单位 NAVER LABS...
论文阅读_CroCo v2
CroCo v2 相比第一篇工作的核心进步点 CroCo v2 作为 CroCo 系列的第二篇工作,针对第一篇的核心局限(合成数据依赖、泛化性不足、模型能力有限)进行了全方位升级,最终实现从 “室内 3D 专用模型” 到 “通用几何任务 SOTA 模型” 的跨越,进步点可归纳为以下 6 个关键维度: 1. 数据层面:从 “合成单一” 到 “真实大规模” 第一篇局限:仅依赖 Habitat 模拟器生成的 180 万对合成室内图像对,场景单一、缺乏真实世界噪声(光照、遮挡、纹理差异),导致泛化性差。 v2 改进: 大规模收集530 万对真实世界图像对,覆盖室内(ARKitScenes、IndoorVL)、户外街道(3DStreetView)、地标(MegaDepth)等多场景,数据多样性远超第一篇。 提出 “重叠度控制 + 贪心选对” 策略:通过 3D 网格、LiDAR、SfM 重建计算图像对的共视率(IoU),筛选共视率≈0.5 的优质对(避免任务过难 / 过易),同时保证数据多样性。 效果:模型鲁棒性显著提升,在真实场景...
论文阅读_DETR
基本信息 项目 内容 论文标题 End-to-End Object Detection with Transformers 作者 作者单位 Facebook AI 时间 2020 发表会议/期刊 ECCV20 论文别名 DEtection TRansformer 方法概览 特点 文章性质 输入 输出 所属领域 目标检测 在 DETR 出现之前,主流目标检测器(如 Faster R-CNN、YOLO、SSD)存在以下问题: 问题 说明 Anchor 机制复杂 需预设大量 anchor boxes,超参数多,设计繁琐 NMS 后处理 非极大值抑制(NMS)不可导,无法端到端训练 多阶段设计 RPN + RoI Pooling + 分类回归,流程复杂 训练不稳定 正负样本不平衡、anchor 匹配策略复杂 创新点 首次将 Transformer 架构成功应用于目标检测任务,摒弃了传统检测器中复杂的组件如...
论文阅读_DINO
基本信息 项目 内容 论文标题 Emerging Properties in Self-Supervised Vision Transformers 作者 作者单位 Meta AI 时间 2021 发表会议/期刊 全称 Self-Distillation with No Labels 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 分类,语义分割 在 DINO 之前,主流的自监督方法有: 对比学习(如 MoCo、SimCLR):需要负样本,显存消耗大 生成式模型(如 MAE):重建像素,可能关注低级细节 创新点 通过“学生-教师”自蒸馏框架,无需任何标签,让 Vision Transformer(ViT)自动学习强大的视觉表征,并且在训练过程中涌现出语义分割、定位等能力。 自蒸馏框架(Student-Teacher...
论文阅读_DPT
DPT: Vision Transformers for Dense Prediction 基本信息 项目 内容 论文标题 Vision Transformers for Dense Prediction 作者 Rene Ranftl, Alexey Bochkovskiy, Vladlen Koltun 作者单位 Intel Labs 时间 2021 发表会议/期刊 ICCV 2021 (arXiv preprint 2020) 方法概览 特点 文章性质 输入 单张RGB图像 输出 密集预测图(如深度图、语义分割图) 所属领域 密集预测、深度估计、语义分割 摘要精简 本文提出了密集预测Transformer(DPT),一种利用Vision...
论文阅读_DROID-SLAM
基本信息 项目 内容 论文标题 DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras 作者 Zachary Teed ,Jia Deng 通讯是ImageNet的一作。 作者单位 Princeton University 时间 发表会议/期刊 方法概览 特点 文章性质 输入 图片序列(SLAM定义可传入激光IMU等各种机器人传感 **输出 一个环境的几何/语义地图(Map):点云,稀疏的点云ORBSLAM,稠密的点云LSDSLAM,高斯场景 一条智能体的运动轨迹(Trajectory)图片位姿 片位姿 片位姿 所属领域 SLAM(Simultaneous Localization and Mapping, 创新点 把Visual-SLAM问题使用深度神经网络直接端到端的实现了,并且取得了比以往传统SLAM方案更高的精度和鲁棒性。
论文阅读_DreamBooth
DreamBooth:Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 微调文生图扩散模型的方法,最大的特点是Subject-Driven,针对某一个特定的主体,生成这个主体可以是一个动物或者某个物体,包括人都是可以的。有特定小狗的一些照片,一般 3-5 张就能生成模型没有见过它做的事情的图片,比如说去到了这个希腊,去游泳,这都是模型没有见到过的照片,但是模型却能生成出来。并且这些生成的图片都有很高的保真度,能够保持这个物体的主要特征。 Probdef 输入:提示词和一个给定的很小量的 reference set,比如一个狗的三张图 输出:模仿生成该 set 中所指定提示词的图片,比如狗在南极的图 背景: diffusion models这些模型实现了从给定文本提示中高质量和多样化的图像合成。但是缺少能够通过一个给定的很小量的 reference set ,去模仿生成该 set 中所指定 subject...
DriveMVS
DriveMVS 基本信息 项目 内容 论文标题 LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving 作者 杨胜 (Sheng Yang)¹, 张涛 (Tao Zhang)² 作者单位 ¹菜鸟网络, 阿里巴巴集团; ²哈尔滨工业大学 时间 2025 发表会议/期刊 arXiv预印本 (根据文内参考文献推测为CVPR/ICCV级别工作,但本文为arXiv:2509.13414) 特点 文章性质 输入 时序长度为 T 的序列数据,单步输入包含参考图像、N 张源图像、所有视角的相机内参 + 外参(位姿)、所有视角的稀疏 LiDAR 度量提示;支持单帧 / 时序输入,非强制时序但时序输入可实现时间一致性 输出 逐像素的绝对度量深度图D^(t)∈RH×W,时序输出可保证帧间深度的时间一致性 所属领域 自动驾驶场景下的时空多视图立体匹配深度估计 1....
论文阅读_EffiMVSNet
Adaptive Feature Enhanced Multi-View Stereo With Epipolar Line Information Aggregation 基本信息 项目 内容 论文标题 Adaptive Feature Enhanced Multi-View Stereo With Epipolar Line Information Aggregation 作者 Shaoqian Wang, Bo Li, Jian Yang, Yuchao Dai 作者单位 西北工业大学 (School of Electronics and Information, Northwestern Polytechnical University) 时间 2024 发表会议/期刊 IEEE Robotics and Automation Letters (LRA), Vol. 9, No. 11, November...
论文阅读_GGEV
GGEV Generalized Geometry Encoding Volume for Real-time Stereo Matching 基本信息 项目 内容 论文标题 Generalized Geometry Encoding Volume for Real-time Stereo Matching 作者 Jiaxin Liu, Gangwei Xu, Xianqi Wang, Chengliang Zhang, Xin Yang 作者单位 华中科技大学 (Huazhong University of Science and Technology) 时间 2025 发表会议/期刊 未明确标注(预印本,可能为CVPR/ICCV等会议投稿) 方法概览 特点 文章性质 输入 一对校正后的立体图像(左右视图) 输出 稠密视差图 所属领域 计算机视觉,立体匹配,实时深度估计 1....
