CroCo v2 相比第一篇工作的核心进步点

CroCo v2 作为 CroCo 系列的第二篇工作,针对第一篇的核心局限(合成数据依赖、泛化性不足、模型能力有限)进行了全方位升级,最终实现从 “室内 3D 专用模型” 到 “通用几何任务 SOTA 模型” 的跨越,进步点可归纳为以下 6 个关键维度:

1. 数据层面:从 “合成单一” 到 “真实大规模”

  • 第一篇局限:仅依赖 Habitat 模拟器生成的 180 万对合成室内图像对,场景单一、缺乏真实世界噪声(光照、遮挡、纹理差异),导致泛化性差。
  • v2 改进:
    • 大规模收集530 万对真实世界图像对,覆盖室内(ARKitScenes、IndoorVL)、户外街道(3DStreetView)、地标(MegaDepth)等多场景,数据多样性远超第一篇。
    • 提出 “重叠度控制 + 贪心选对” 策略:通过 3D 网格、LiDAR、SfM 重建计算图像对的共视率(IoU),筛选共视率≈0.5 的优质对(避免任务过难 / 过易),同时保证数据多样性。
  • 效果:模型鲁棒性显著提升,在真实场景 benchmarks(KITTI、ETH3D)中首次达到 SOTA,摆脱对合成数据的依赖。

2. 模型规模:从 “轻量基础” 到 “大规模扩容”

  • 第一篇局限:编码器为 ViT-Base(12 层、768 维、12 头),解码器为 8 层小尺寸模块(512 维、16 头),特征提取和跨视图融合能力有限。
  • v2 改进:
    • 编码器升级为ViT-Large:深度从 12 层增至 24 层,特征维度从 768 升至 1024,注意力头数从 12 增至 16,全局特征捕捉能力大幅增强。
    • 解码器扩容为Base 尺寸:从 8 层增至 12 层,特征维度从 512 升至 768,跨视图融合的表达能力提升(解码器对双目任务至关重要)。
  • 效果:在立体匹配(Middlebury bad@1.0px 从 26.3 降至 15.5)、光流(MPI-Sintel clean EPE 从 2.07 降至 1.43)任务中性能大幅突破。

3. 位置编码:从 “绝对” 到 “相对”,适配密集几何任务

  • 第一篇局限:使用余弦绝对位置编码,泛化性差(不支持新分辨率、对裁剪敏感),仅能处理 224×224 低分辨率正方形图像。
  • v2 改进:
    • 替换为旋转位置编码(RoPE):通过对查询 / 键特征施加旋转变换,使注意力分数仅依赖 token 相对位置,天然支持任意分辨率和裁剪。
    • 适配 2D 图像:将特征拆分为 x/y 维度,分别施加 1D RoPE,精准建模像素间的空间关联。
  • 效果:模型可处理高分辨率非正方形图像(如 KITTI 1216×352),推理时支持瓦片拼接策略,解决大尺寸图像处理问题。

4. 训练与损失:从 “简单重建” 到 “概率化优化”

  • 第一篇局限:预训练仅用 MSE 像素重建损失,下游任务用简单 L1 损失,未考虑几何任务的不确定性建模。
  • v2 改进:
    • 预训练:保持 90% 高掩码率(验证真实数据上仍最优),延续跨视图补全目标,但数据规模扩大后训练更稳定。
    • 下游任务损失:引入拉普拉斯分布负对数似然损失,模型同时预测 “位置参数( disparity/flow )” 和 “尺度参数(不确定性)”,不确定性可用于推理时的瓦片加权融合。
  • 效果:预测精度提升(如 ETH3D bad@0.5 从 3.58% 降至 3.27%),且能输出像素级置信度,解决推理时的瓦片拼接 artifacts。

5. 下游任务适配:从 “单目为主” 到 “双目 SOTA + 通用架构”

  • 第一篇局限:核心适配单目任务(深度估计、Taskonomy),双目任务(光流、位姿)仅能达到 “竞争性结果”,且依赖任务特定设计。
  • v2 改进:
    • 提出通用双目架构:编码器 + 解码器直接输出密集预测,无需代价体(cost volume)、迭代优化、图像扭曲等传统几何任务专用模块。
    • 统一立体声匹配(CroCo-Stereo)和光流(CroCo-Flow)架构:仅修改输出头(disparity/flow),共享预训练权重。
  • 效果:
    • 立体匹配:KITTI 2015 D1-all 最优(1.59%),ETH3D bad@0.5 刷新 SOTA(3.27%)。
    • 光流:MPI-Sintel clean EPE 1.09(排名第二),KITTI 2015 F1-all 最优(3.64%),首次用通用 Transformer 架构超越传统专用模型。

6. 单目任务延续性:性能进一步突破

  • 第一篇在单目任务的表现:ADE20k 语义分割 mIoU=40.6,NYUv2 深度估计 delta-1=90.1。
  • v2 改进:借助真实数据预训练和模型扩容,单目任务性能同步提升:
    • ADE20k mIoU 升至 44.7,NYUv2 delta-1 升至 93.2,保持对第一篇的领先,证明模型表征的通用性(兼顾单目 / 双目任务)。

7. 推理策略:从 “固定尺寸” 到 “瓦片融合 + 不确定性加权”

  • 第一篇局限:仅支持固定 224×224 输入,无法处理高分辨率图像,实用性有限。
  • v2 改进:
    • 提出瓦片拼接推理:将高分辨率图像分割为重叠瓦片(如 704×352),分别预测后融合。
    • 基于不确定性的加权融合:利用拉普拉斯损失输出的尺度参数(不确定性),对瓦片重叠区域加权平均(低不确定性像素权重更高)。
  • 效果:可处理 1920×1080 高清图像,瓦片 artifacts 显著减少,在大视差 / 大流场场景中预测更准确。

核心进步总结

CroCo v2 的本质是 “数据规模化 + 模型扩容 + 任务适配优化” 的协同升级:通过真实大规模数据解决泛化性问题,通过模型扩容提升特征能力,通过 RoPE 和概率损失适配密集几何任务,最终实现 “无任务特定设计却达到 SOTA” 的突破,为通用视觉模型(单一架构解决多几何任务)奠定基础。