avatar
文章
210
标签
71
分类
15
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者
LogoThis is a 部落格 of outbreak_sen
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者

This is a 部落格 of outbreak_sen

论文阅读_CroCo
发表于2025-12-03|论文阅读
CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion 基本信息 项目 内容 论文标题 CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion 作者 Philippe Weinzaepfel, Vincent Leroy, Thomas Lucas, Romain Bregier, Yohann Cabon, Vaibhav Arora, Leonid Antsfeld, Boris Chidlovskii, Gabriela Csurka, Jerome Revaud 作者单位 NAVER LABS...
论文阅读_CroCo v2
发表于2025-12-03|论文阅读
CroCo v2 相比第一篇工作的核心进步点 CroCo v2 作为 CroCo 系列的第二篇工作,针对第一篇的核心局限(合成数据依赖、泛化性不足、模型能力有限)进行了全方位升级,最终实现从 “室内 3D 专用模型” 到 “通用几何任务 SOTA 模型” 的跨越,进步点可归纳为以下 6 个关键维度: 1. 数据层面:从 “合成单一” 到 “真实大规模” 第一篇局限:仅依赖 Habitat 模拟器生成的 180 万对合成室内图像对,场景单一、缺乏真实世界噪声(光照、遮挡、纹理差异),导致泛化性差。 v2 改进: 大规模收集530 万对真实世界图像对,覆盖室内(ARKitScenes、IndoorVL)、户外街道(3DStreetView)、地标(MegaDepth)等多场景,数据多样性远超第一篇。 提出 “重叠度控制 + 贪心选对” 策略:通过 3D 网格、LiDAR、SfM 重建计算图像对的共视率(IoU),筛选共视率≈0.5 的优质对(避免任务过难 / 过易),同时保证数据多样性。 效果:模型鲁棒性显著提升,在真实场景...
论文阅读_DETR
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 End-to-End Object Detection with Transformers 作者 作者单位 Facebook AI 时间 2020 发表会议/期刊 ECCV20 论文别名 DEtection TRansformer 方法概览 特点 文章性质 输入 输出 所属领域 目标检测 在 DETR 出现之前,主流目标检测器(如 Faster R-CNN、YOLO、SSD)存在以下问题: 问题 说明 Anchor 机制复杂 需预设大量 anchor boxes,超参数多,设计繁琐 NMS 后处理 非极大值抑制(NMS)不可导,无法端到端训练 多阶段设计 RPN + RoI Pooling + 分类回归,流程复杂 训练不稳定 正负样本不平衡、anchor 匹配策略复杂 创新点 首次将 Transformer 架构成功应用于目标检测任务,摒弃了传统检测器中复杂的组件如...
论文阅读_DINO
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 Emerging Properties in Self-Supervised Vision Transformers 作者 作者单位 Meta AI 时间 2021 发表会议/期刊 全称 Self-Distillation with No Labels 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 分类,语义分割 在 DINO 之前,主流的自监督方法有: 对比学习(如 MoCo、SimCLR):需要负样本,显存消耗大 生成式模型(如 MAE):重建像素,可能关注低级细节 创新点 通过“学生-教师”自蒸馏框架,无需任何标签,让 Vision Transformer(ViT)自动学习强大的视觉表征,并且在训练过程中涌现出语义分割、定位等能力。 自蒸馏框架(Student-Teacher...
论文阅读_DPT
发表于2025-12-03|论文阅读
DPT: Vision Transformers for Dense Prediction 基本信息 项目 内容 论文标题 Vision Transformers for Dense Prediction 作者 Rene Ranftl, Alexey Bochkovskiy, Vladlen Koltun 作者单位 Intel Labs 时间 2021 发表会议/期刊 ICCV 2021 (arXiv preprint 2020) 方法概览 特点 文章性质 输入 单张RGB图像 输出 密集预测图(如深度图、语义分割图) 所属领域 密集预测、深度估计、语义分割 摘要精简 本文提出了密集预测Transformer(DPT),一种利用Vision...
论文阅读_DROID-SLAM
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras 作者 Zachary Teed ,Jia Deng 通讯是ImageNet的一作。 作者单位 Princeton University 时间 发表会议/期刊 方法概览 特点 文章性质 输入 图片序列(SLAM定义可传入激光IMU等各种机器人传感 **输出 一个环境的几何/语义地图(Map):点云,稀疏的点云ORBSLAM,稠密的点云LSDSLAM,高斯场景 一条智能体的运动轨迹(Trajectory)图片位姿 片位姿 片位姿 所属领域 SLAM(Simultaneous Localization and Mapping, 创新点 把Visual-SLAM问题使用深度神经网络直接端到端的实现了,并且取得了比以往传统SLAM方案更高的精度和鲁棒性。
论文阅读_DreamBooth
发表于2025-12-03|论文阅读
DreamBooth:Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 微调文生图扩散模型的方法,最大的特点是Subject-Driven,针对某一个特定的主体,生成这个主体可以是一个动物或者某个物体,包括人都是可以的。有特定小狗的一些照片,一般 3-5 张就能生成模型没有见过它做的事情的图片,比如说去到了这个希腊,去游泳,这都是模型没有见到过的照片,但是模型却能生成出来。并且这些生成的图片都有很高的保真度,能够保持这个物体的主要特征。 Probdef 输入:提示词和一个给定的很小量的 reference set,比如一个狗的三张图 输出:模仿生成该 set 中所指定提示词的图片,比如狗在南极的图 背景: diffusion models这些模型实现了从给定文本提示中高质量和多样化的图像合成。但是缺少能够通过一个给定的很小量的 reference set ,去模仿生成该 set 中所指定 subject...
DriveMVS
发表于2025-12-03|论文阅读
DriveMVS 基本信息 项目 内容 论文标题 LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving 作者 杨胜 (Sheng Yang)¹, 张涛 (Tao Zhang)² 作者单位 ¹菜鸟网络, 阿里巴巴集团; ²哈尔滨工业大学 时间 2025 发表会议/期刊 arXiv预印本 (根据文内参考文献推测为CVPR/ICCV级别工作,但本文为arXiv:2509.13414) 特点 文章性质 输入 时序长度为 T 的序列数据,单步输入包含参考图像、N 张源图像、所有视角的相机内参 + 外参(位姿)、所有视角的稀疏 LiDAR 度量提示;支持单帧 / 时序输入,非强制时序但时序输入可实现时间一致性 输出 逐像素的绝对度量深度图D^(t)∈RH×W,时序输出可保证帧间深度的时间一致性 所属领域 自动驾驶场景下的时空多视图立体匹配深度估计 1....
论文阅读_EffiMVSNet
发表于2025-12-03|论文阅读
Adaptive Feature Enhanced Multi-View Stereo With Epipolar Line Information Aggregation 基本信息 项目 内容 论文标题 Adaptive Feature Enhanced Multi-View Stereo With Epipolar Line Information Aggregation 作者 Shaoqian Wang, Bo Li, Jian Yang, Yuchao Dai 作者单位 西北工业大学 (School of Electronics and Information, Northwestern Polytechnical University) 时间 2024 发表会议/期刊 IEEE Robotics and Automation Letters (LRA), Vol. 9, No. 11, November...
论文阅读_GGEV
发表于2025-12-03|论文阅读
GGEV Generalized Geometry Encoding Volume for Real-time Stereo Matching 基本信息 项目 内容 论文标题 Generalized Geometry Encoding Volume for Real-time Stereo Matching 作者 Jiaxin Liu, Gangwei Xu, Xianqi Wang, Chengliang Zhang, Xin Yang 作者单位 华中科技大学 (Huazhong University of Science and Technology) 时间 2025 发表会议/期刊 未明确标注(预印本,可能为CVPR/ICCV等会议投稿) 方法概览 特点 文章性质 输入 一对校正后的立体图像(左右视图) 输出 稠密视差图 所属领域 计算机视觉,立体匹配,实时深度估计 1....
1…789…21
avatar
outbreak_sen
an interesting man
文章
210
标签
71
分类
15
Follow Me
公告
This is my Blog
最新文章
无标题2026-03-31
无标题2026-03-31
无标题2026-03-31
无标题2026-03-25
无标题2026-03-24
分类
  • swift2
  • 传统图形学1
  • 学习笔记1
  • 实践笔记2
  • 嵌入式1
  • 工具笔记10
  • 深度学习11
  • 点云配准6
标签
mesh easymocap SFM Mindspore 算子 transformer 硬触发 GAN生成对抗模型 LLVM 这也是一个测试 李沐 colmap shell siwft openclaw 三维生成 MuiltViewStereo nodejs 深度相机 生成 NLP 检测 视频理解 mindNLP 大恒 实习 匹配 VAE huggingface stereo CUDA Diffusion Mesh重建 多模态 leetcode Muilt View Stereo QT 4D重建 三维重建 Stereo
归档
  • 三月 2026 18
  • 一月 2026 1
  • 十二月 2025 159
  • 八月 2025 1
  • 七月 2025 3
  • 六月 2025 8
  • 三月 2025 3
  • 二月 2025 16
网站信息
文章数目 :
210
本站访客数 :
本站总浏览量 :
最后更新时间 :
©2019 - 2026 By outbreak_sen
框架 Hexo|主题 Butterfly