GGEV

Generalized Geometry Encoding Volume for Real-time Stereo Matching

基本信息

项目	内容
论文标题	Generalized Geometry Encoding Volume for Real-time Stereo Matching
作者	Jiaxin Liu, Gangwei Xu, Xianqi Wang, Chengliang Zhang, Xin Yang
作者单位	华中科技大学 (Huazhong University of Science and Technology)
时间	2025
发表会议/期刊	未明确标注（预印本，可能为CVPR/ICCV等会议投稿）

方法概览

特点	文章性质
输入	一对校正后的立体图像（左右视图）
输出	稠密视差图
所属领域	计算机视觉，立体匹配，实时深度估计

1. 摘要精简

本文提出了一种名为广义几何编码体积（GGEV）的实时立体匹配网络，旨在解决现有实时方法在跨域泛化上的不足。GGEV通过引入深度感知特征和深度感知动态代价聚合（DDCA），将单目基础模型的泛化能力以轻量方式融入代价聚合过程中，增强了在未见场景下的匹配鲁棒性。实验表明，GGEV在保持实时速度的同时，在KITTI、ETH3D等基准上实现了最优的零样本泛化性能。

2. 引言与出发点

立体匹配在自动驾驶、三维重建等领域有重要应用，对泛化能力和推理速度都有严格要求。现有实时方法往往牺牲泛化能力以追求速度，而近期基于单目基础模型（MFM）的方法虽泛化能力强，但推理延迟大。因此，本文的核心出发点是：

如何设计一个既能保持实时推理，又具备强泛化能力的立体匹配网络？

现有方法在构建几何编码体积时存在两个关键问题：

不同视差假设对应的关键区域变化大；
在遮挡、无纹理、重复模式等挑战区域，匹配关系非常脆弱。

3. 创新点

3.1 广义几何编码体积（GGEV）

一种新型的代价体积表示，通过轻量级方式融合深度先验，增强跨域泛化能力。

3.2 深度感知动态代价聚合模块（DDCA）

基于视差假设与深度特征之间的亲和力，动态生成卷积核，自适应地聚合不同视差假设下的代价，强化脆弱匹配关系。

3.3 选择性通道融合模块（SCF）

轻量级的 $1 imes 1$ 卷积模块，用于融合纹理特征与深度特征，生成深度感知的先验特征，作为后续聚合的结构引导。

3.4 深度感知迭代细化

在GRU迭代细化过程中，利用深度特征初始化隐藏状态，将结构先验注入迭代过程，提升细化效果。

4. 网络架构

网络包含四个主要阶段（对应图2）：

多线索特征提取：提取纹理特征和深度特征，并通过SCF融合；
代价体积构建：基于纹理特征构建组相关代价体积；
深度感知动态代价聚合：使用DDCA对代价体积进行自适应正则化；
深度感知迭代细化：通过GRU逐步优化视差图。

5. 特征提取

纹理特征编码器：使用ImageNet预训练的MobileNetV2，从左、右图像提取多尺度特征 $\mathbf{f}_{l,i}, \mathbf{f}_{r,i} \in \mathbb{R}^{C_i imes rac{H}{4} imes rac{W}{4}}, i \in \{4,8,16\}$ 。
深度特征编码器：使用冻结的Depth Anything V2 Small，仅从左图像提取多尺度深度特征 $\mathbf{f}_{d,i} \in \mathbb{R}^{C_i imes rac{H}{4} imes rac{W}{4}}, i \in \{2,4,8,16\}$ 。
选择性通道融合：通过 $1 imes 1$ 卷积融合 $\mathbf{f}_l$ 与 $\mathbf{f}_d$ ，输出深度感知特征 $\mathbf{f}_{da,i}$ 。

6. 代价体构建

在 $1/4$ 分辨率上，使用左右纹理特征 $\mathbf{f}_{l,4}$ 和 $\mathbf{f}_{r,4}$ 构建组相关代价体积 $\mathbf{C}$ ：

\mathbf{C}(g,d,x,y) = rac{1}{N_c/N_g} \langle \mathbf{f}_{l,4}^{g}(x,y), \mathbf{f}_{r,4}^{g}(x-d,y) angle

其中 $g$ 为组索引， $d$ 为视差索引， $N_g=8$ 为总组数。

7. 代价体正则化（DDCA）

DDCA模块通过动态卷积自适应地聚合代价体积：

视差-深度结构表示：计算视差假设 $\mathbf{C}_d$ 与深度特征 $\mathbf{f}_{da}$ 之间的亲和力矩阵 $\mathbf{A}$ 。 $\mathbf{Q} = ext{Re}(W_q \mathbf{C}_d), \quad \mathbf{K} = ext{Re}(W_k ext{Pool}(\mathbf{f}_{da})), \quad \mathbf{A} = \mathbf{Q}^\mathrm{T} \mathbf{K}$
视差自适应代价聚合：用 $\mathbf{A}$ 生成动态卷积核 $\mathbf{M}^g$ ，对 $\mathbf{C}_d$ 与 $\mathbf{f}_{da}$ 进行分组卷积： $\mathbf{M}^g = ext{softmax}(\mathbf{A}^g W_m), \quad \mathbf{C}_d' = \mathbf{C}_d * \mathbf{M}_{ ext{dynamic}}^g(\mathbf{C}_d, \mathbf{f}_{da})$ 同时使用大小卷积核融合低频与高频信息。

8. 深度图生成

初始视差预测：对正则化后的代价体积 $\mathbf{C}'$ 应用 soft-argmin： $\mathbf{d}_0 = \sum_{d \in \mathcal{D}} d imes ext{Softmax}(\mathbf{C}'(d))$
迭代细化：使用单层GRU，以深度特征初始化隐藏状态 $h_0$ ，结合几何特征 $\mathbf{f}_G$ 逐步更新视差： $\mathbf{d}_{k+1} = \mathbf{d}_k + \Delta \mathbf{d}_k$
空间上采样：利用深度特征辅助，通过加权局部邻域的方式将低分辨率视差图上采样至全分辨率。

9. 损失函数

论文未明确给出损失函数公式，但从上下文可知训练时使用了合成数据集（Scene Flow），并可能采用平滑L1或L2损失监督视差图，同时可能结合了多尺度损失。

10. 测试数据集

Scene Flow：合成数据集，用于训练与域内评估。
KITTI 2012 & 2015：真实世界驾驶场景数据集，用于零样本泛化与微调评估。
ETH3D：室内外灰度立体数据集，用于评估泛化能力。
Middlebury V3：室内立体数据集（quarter分辨率），用于跨域泛化评估。

11. 消融实验

消融实验验证了以下组件（表4）：

深度特征编码器（DFE）：引入预训练MFM提升泛化。
选择性通道融合（SCF）：融合纹理与深度特征，提升域内拟合。
动态代价聚合（DCA）：仅用纹理特征引导时提升域内性能但泛化有限；结合深度特征后全面提升。
完整模型（GGEV）：综合所有模块，在精度与泛化上均取得最佳平衡。
不同MFM替代：尝试使用MoGe-2替代Depth Anything V2，仍优于基线。
亲和力矩阵构建方式：验证了以深度特征为键、视差假设为查询的方式最佳。

12. 其他亮点

实时性：在KITTI分辨率下推理时间约47ms，满足实时需求（<100ms）。
参数效率：仅比基线增加0.08M参数（约2%）。
反射区域处理：在KITTI反射区域评估中表现优异，优于多数实时方法。