GGEV

Generalized Geometry Encoding Volume for Real-time Stereo Matching

基本信息

项目 内容
论文标题 Generalized Geometry Encoding Volume for Real-time Stereo Matching
作者 Jiaxin Liu, Gangwei Xu, Xianqi Wang, Chengliang Zhang, Xin Yang
作者单位 华中科技大学 (Huazhong University of Science and Technology)
时间 2025
发表会议/期刊 未明确标注(预印本,可能为CVPR/ICCV等会议投稿)

方法概览

特点 文章性质
输入 一对校正后的立体图像(左右视图)
输出 稠密视差图
所属领域 计算机视觉,立体匹配,实时深度估计

1. 摘要精简

本文提出了一种名为广义几何编码体积(GGEV)的实时立体匹配网络,旨在解决现有实时方法在跨域泛化上的不足。GGEV通过引入深度感知特征深度感知动态代价聚合(DDCA),将单目基础模型的泛化能力以轻量方式融入代价聚合过程中,增强了在未见场景下的匹配鲁棒性。实验表明,GGEV在保持实时速度的同时,在KITTI、ETH3D等基准上实现了最优的零样本泛化性能。

2. 引言与出发点

立体匹配在自动驾驶、三维重建等领域有重要应用,对泛化能力和推理速度都有严格要求。现有实时方法往往牺牲泛化能力以追求速度,而近期基于单目基础模型(MFM)的方法虽泛化能力强,但推理延迟大。因此,本文的核心出发点是:

如何设计一个既能保持实时推理,又具备强泛化能力的立体匹配网络?

现有方法在构建几何编码体积时存在两个关键问题:

  1. 不同视差假设对应的关键区域变化大;
  2. 在遮挡、无纹理、重复模式等挑战区域,匹配关系非常脆弱。

3. 创新点

3.1 广义几何编码体积(GGEV)

一种新型的代价体积表示,通过轻量级方式融合深度先验,增强跨域泛化能力。

3.2 深度感知动态代价聚合模块(DDCA)

基于视差假设与深度特征之间的亲和力,动态生成卷积核,自适应地聚合不同视差假设下的代价,强化脆弱匹配关系。

3.3 选择性通道融合模块(SCF)

轻量级的 1imes11 imes 1 卷积模块,用于融合纹理特征与深度特征,生成深度感知的先验特征,作为后续聚合的结构引导。

3.4 深度感知迭代细化

在GRU迭代细化过程中,利用深度特征初始化隐藏状态,将结构先验注入迭代过程,提升细化效果。

4. 网络架构

image-20251209133846177

网络包含四个主要阶段(对应图2):

  1. 多线索特征提取:提取纹理特征和深度特征,并通过SCF融合;
  2. 代价体积构建:基于纹理特征构建组相关代价体积;
  3. 深度感知动态代价聚合:使用DDCA对代价体积进行自适应正则化;
  4. 深度感知迭代细化:通过GRU逐步优化视差图。

5. 特征提取

  • 纹理特征编码器:使用ImageNet预训练的MobileNetV2,从左、右图像提取多尺度特征 \mathbf{f}_{l,i}, \mathbf{f}_{r,i} \in \mathbb{R}^{C_i imes rac{H}{4} imes rac{W}{4}}, i \in \{4,8,16\}
  • 深度特征编码器:使用冻结的Depth Anything V2 Small,仅从左图像提取多尺度深度特征 \mathbf{f}_{d,i} \in \mathbb{R}^{C_i imes rac{H}{4} imes rac{W}{4}}, i \in \{2,4,8,16\}
  • 选择性通道融合:通过 1imes11 imes 1 卷积融合 fl\mathbf{f}_lfd\mathbf{f}_d,输出深度感知特征 fda,i\mathbf{f}_{da,i}

6. 代价体构建

1/41/4 分辨率上,使用左右纹理特征 fl,4\mathbf{f}_{l,4}fr,4\mathbf{f}_{r,4} 构建组相关代价体积 C\mathbf{C}

\mathbf{C}(g,d,x,y) = rac{1}{N_c/N_g} \langle \mathbf{f}_{l,4}^{g}(x,y), \mathbf{f}_{r,4}^{g}(x-d,y) angle

其中 gg 为组索引,dd 为视差索引,Ng=8N_g=8 为总组数。

7. 代价体正则化(DDCA)

DDCA模块通过动态卷积自适应地聚合代价体积:

  1. 视差-深度结构表示:计算视差假设 Cd\mathbf{C}_d 与深度特征 fda\mathbf{f}_{da} 之间的亲和力矩阵 A\mathbf{A}

    Q=extRe(WqCd),K=extRe(WkextPool(fda)),A=QTK\mathbf{Q} = ext{Re}(W_q \mathbf{C}_d), \quad \mathbf{K} = ext{Re}(W_k ext{Pool}(\mathbf{f}_{da})), \quad \mathbf{A} = \mathbf{Q}^\mathrm{T} \mathbf{K}

  2. 视差自适应代价聚合:用 A\mathbf{A} 生成动态卷积核 Mg\mathbf{M}^g,对 Cd\mathbf{C}_dfda\mathbf{f}_{da} 进行分组卷积:

    Mg=extsoftmax(AgWm),Cd=CdMextdynamicg(Cd,fda)\mathbf{M}^g = ext{softmax}(\mathbf{A}^g W_m), \quad \mathbf{C}_d' = \mathbf{C}_d * \mathbf{M}_{ ext{dynamic}}^g(\mathbf{C}_d, \mathbf{f}_{da})

    同时使用大小卷积核融合低频与高频信息。

8. 深度图生成

  1. 初始视差预测:对正则化后的代价体积 C\mathbf{C}' 应用 soft-argmin:

    d0=dDdimesextSoftmax(C(d))\mathbf{d}_0 = \sum_{d \in \mathcal{D}} d imes ext{Softmax}(\mathbf{C}'(d))

  2. 迭代细化:使用单层GRU,以深度特征初始化隐藏状态 h0h_0,结合几何特征 fG\mathbf{f}_G 逐步更新视差:

    dk+1=dk+Δdk\mathbf{d}_{k+1} = \mathbf{d}_k + \Delta \mathbf{d}_k

  3. 空间上采样:利用深度特征辅助,通过加权局部邻域的方式将低分辨率视差图上采样至全分辨率。

9. 损失函数

论文未明确给出损失函数公式,但从上下文可知训练时使用了合成数据集(Scene Flow),并可能采用平滑L1或L2损失监督视差图,同时可能结合了多尺度损失

10. 测试数据集

  • Scene Flow:合成数据集,用于训练与域内评估。
  • KITTI 2012 & 2015:真实世界驾驶场景数据集,用于零样本泛化与微调评估。
  • ETH3D:室内外灰度立体数据集,用于评估泛化能力。
  • Middlebury V3:室内立体数据集(quarter分辨率),用于跨域泛化评估。

11. 消融实验

消融实验验证了以下组件(表4):

  • 深度特征编码器(DFE):引入预训练MFM提升泛化。
  • 选择性通道融合(SCF):融合纹理与深度特征,提升域内拟合。
  • 动态代价聚合(DCA):仅用纹理特征引导时提升域内性能但泛化有限;结合深度特征后全面提升。
  • 完整模型(GGEV):综合所有模块,在精度与泛化上均取得最佳平衡。
  • 不同MFM替代:尝试使用MoGe-2替代Depth Anything V2,仍优于基线。
  • 亲和力矩阵构建方式:验证了以深度特征为键、视差假设为查询的方式最佳。

12. 其他亮点

  • 实时性:在KITTI分辨率下推理时间约47ms,满足实时需求(<100ms)。
  • 参数效率:仅比基线增加0.08M参数(约2%)。
  • 反射区域处理:在KITTI反射区域评估中表现优异,优于多数实时方法。