论文阅读_CroCo v2

发表于2025-12-03|更新于2026-03-09|论文阅读

|浏览量:

CroCo v2 相比第一篇工作的核心进步点

CroCo v2 作为 CroCo 系列的第二篇工作，针对第一篇的核心局限（合成数据依赖、泛化性不足、模型能力有限）进行了全方位升级，最终实现从 “室内 3D 专用模型” 到 “通用几何任务 SOTA 模型” 的跨越，进步点可归纳为以下 6 个关键维度：

1. 数据层面：从 “合成单一” 到 “真实大规模”

第一篇局限：仅依赖 Habitat 模拟器生成的 180 万对合成室内图像对，场景单一、缺乏真实世界噪声（光照、遮挡、纹理差异），导致泛化性差。
v2 改进：
- 大规模收集530 万对真实世界图像对，覆盖室内（ARKitScenes、IndoorVL）、户外街道（3DStreetView）、地标（MegaDepth）等多场景，数据多样性远超第一篇。
- 提出 “重叠度控制 + 贪心选对” 策略：通过 3D 网格、LiDAR、SfM 重建计算图像对的共视率（IoU），筛选共视率≈0.5 的优质对（避免任务过难 / 过易），同时保证数据多样性。
效果：模型鲁棒性显著提升，在真实场景 benchmarks（KITTI、ETH3D）中首次达到 SOTA，摆脱对合成数据的依赖。

2. 模型规模：从 “轻量基础” 到 “大规模扩容”

第一篇局限：编码器为 ViT-Base（12 层、768 维、12 头），解码器为 8 层小尺寸模块（512 维、16 头），特征提取和跨视图融合能力有限。
v2 改进：
- 编码器升级为ViT-Large：深度从 12 层增至 24 层，特征维度从 768 升至 1024，注意力头数从 12 增至 16，全局特征捕捉能力大幅增强。
- 解码器扩容为Base 尺寸：从 8 层增至 12 层，特征维度从 512 升至 768，跨视图融合的表达能力提升（解码器对双目任务至关重要）。
效果：在立体匹配（Middlebury bad@1.0px 从 26.3 降至 15.5）、光流（MPI-Sintel clean EPE 从 2.07 降至 1.43）任务中性能大幅突破。

3. 位置编码：从 “绝对” 到 “相对”，适配密集几何任务

第一篇局限：使用余弦绝对位置编码，泛化性差（不支持新分辨率、对裁剪敏感），仅能处理 224×224 低分辨率正方形图像。
v2 改进：
- 替换为旋转位置编码（RoPE）：通过对查询 / 键特征施加旋转变换，使注意力分数仅依赖 token 相对位置，天然支持任意分辨率和裁剪。
- 适配 2D 图像：将特征拆分为 x/y 维度，分别施加 1D RoPE，精准建模像素间的空间关联。
效果：模型可处理高分辨率非正方形图像（如 KITTI 1216×352），推理时支持瓦片拼接策略，解决大尺寸图像处理问题。

4. 训练与损失：从 “简单重建” 到 “概率化优化”

第一篇局限：预训练仅用 MSE 像素重建损失，下游任务用简单 L1 损失，未考虑几何任务的不确定性建模。
v2 改进：
- 预训练：保持 90% 高掩码率（验证真实数据上仍最优），延续跨视图补全目标，但数据规模扩大后训练更稳定。
- 下游任务损失：引入拉普拉斯分布负对数似然损失，模型同时预测 “位置参数（ disparity/flow ）” 和 “尺度参数（不确定性）”，不确定性可用于推理时的瓦片加权融合。
效果：预测精度提升（如 ETH3D bad@0.5 从 3.58% 降至 3.27%），且能输出像素级置信度，解决推理时的瓦片拼接 artifacts。

5. 下游任务适配：从 “单目为主” 到 “双目 SOTA + 通用架构”

第一篇局限：核心适配单目任务（深度估计、Taskonomy），双目任务（光流、位姿）仅能达到 “竞争性结果”，且依赖任务特定设计。
v2 改进：
- 提出通用双目架构：编码器 + 解码器直接输出密集预测，无需代价体（cost volume）、迭代优化、图像扭曲等传统几何任务专用模块。
- 统一立体声匹配（CroCo-Stereo）和光流（CroCo-Flow）架构：仅修改输出头（disparity/flow），共享预训练权重。
效果：
- 立体匹配：KITTI 2015 D1-all 最优（1.59%），ETH3D bad@0.5 刷新 SOTA（3.27%）。
- 光流：MPI-Sintel clean EPE 1.09（排名第二），KITTI 2015 F1-all 最优（3.64%），首次用通用 Transformer 架构超越传统专用模型。

6. 单目任务延续性：性能进一步突破

第一篇在单目任务的表现：ADE20k 语义分割 mIoU=40.6，NYUv2 深度估计 delta-1=90.1。
v2 改进：借助真实数据预训练和模型扩容，单目任务性能同步提升：
- ADE20k mIoU 升至 44.7，NYUv2 delta-1 升至 93.2，保持对第一篇的领先，证明模型表征的通用性（兼顾单目 / 双目任务）。

7. 推理策略：从 “固定尺寸” 到 “瓦片融合 + 不确定性加权”

第一篇局限：仅支持固定 224×224 输入，无法处理高分辨率图像，实用性有限。
v2 改进：
- 提出瓦片拼接推理：将高分辨率图像分割为重叠瓦片（如 704×352），分别预测后融合。
- 基于不确定性的加权融合：利用拉普拉斯损失输出的尺度参数（不确定性），对瓦片重叠区域加权平均（低不确定性像素权重更高）。
效果：可处理 1920×1080 高清图像，瓦片 artifacts 显著减少，在大视差 / 大流场场景中预测更准确。

核心进步总结

CroCo v2 的本质是 “数据规模化 + 模型扩容 + 任务适配优化” 的协同升级：通过真实大规模数据解决泛化性问题，通过模型扩容提升特征能力，通过 RoPE 和概率损失适配密集几何任务，最终实现 “无任务特定设计却达到 SOTA” 的突破，为通用视觉模型（单一架构解决多几何任务）奠定基础。

文章作者: outbreak_sen

文章链接: http://outbreak-sen.github.io/2025/12/03/%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB_CroCov2/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen！

赞助

微信
支付宝

相关推荐

论文阅读_CroCo

CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion 基本信息项目内容论文标题 CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion 作者 Philippe Weinzaepfel, Vincent Leroy, Thomas Lucas, Romain Bregier, Yohann Cabon, Vaibhav Arora, Leonid Antsfeld, Boris Chidlovskii, Gabriela Csurka, Jerome Revaud 作者单位 NAVER LABS...