论文阅读_GGEV
GGEV
Generalized Geometry Encoding Volume for Real-time Stereo Matching
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | Generalized Geometry Encoding Volume for Real-time Stereo Matching |
| 作者 | Jiaxin Liu, Gangwei Xu, Xianqi Wang, Chengliang Zhang, Xin Yang |
| 作者单位 | 华中科技大学 (Huazhong University of Science and Technology) |
| 时间 | 2025 |
| 发表会议/期刊 | 未明确标注(预印本,可能为CVPR/ICCV等会议投稿) |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | 一对校正后的立体图像(左右视图) |
| 输出 | 稠密视差图 |
| 所属领域 | 计算机视觉,立体匹配,实时深度估计 |
1. 摘要精简
本文提出了一种名为广义几何编码体积(GGEV)的实时立体匹配网络,旨在解决现有实时方法在跨域泛化上的不足。GGEV通过引入深度感知特征和深度感知动态代价聚合(DDCA),将单目基础模型的泛化能力以轻量方式融入代价聚合过程中,增强了在未见场景下的匹配鲁棒性。实验表明,GGEV在保持实时速度的同时,在KITTI、ETH3D等基准上实现了最优的零样本泛化性能。
2. 引言与出发点
立体匹配在自动驾驶、三维重建等领域有重要应用,对泛化能力和推理速度都有严格要求。现有实时方法往往牺牲泛化能力以追求速度,而近期基于单目基础模型(MFM)的方法虽泛化能力强,但推理延迟大。因此,本文的核心出发点是:
如何设计一个既能保持实时推理,又具备强泛化能力的立体匹配网络?
现有方法在构建几何编码体积时存在两个关键问题:
- 不同视差假设对应的关键区域变化大;
- 在遮挡、无纹理、重复模式等挑战区域,匹配关系非常脆弱。
3. 创新点
3.1 广义几何编码体积(GGEV)
一种新型的代价体积表示,通过轻量级方式融合深度先验,增强跨域泛化能力。
3.2 深度感知动态代价聚合模块(DDCA)
基于视差假设与深度特征之间的亲和力,动态生成卷积核,自适应地聚合不同视差假设下的代价,强化脆弱匹配关系。
3.3 选择性通道融合模块(SCF)
轻量级的 卷积模块,用于融合纹理特征与深度特征,生成深度感知的先验特征,作为后续聚合的结构引导。
3.4 深度感知迭代细化
在GRU迭代细化过程中,利用深度特征初始化隐藏状态,将结构先验注入迭代过程,提升细化效果。
4. 网络架构
网络包含四个主要阶段(对应图2):
- 多线索特征提取:提取纹理特征和深度特征,并通过SCF融合;
- 代价体积构建:基于纹理特征构建组相关代价体积;
- 深度感知动态代价聚合:使用DDCA对代价体积进行自适应正则化;
- 深度感知迭代细化:通过GRU逐步优化视差图。
5. 特征提取
- 纹理特征编码器:使用ImageNet预训练的MobileNetV2,从左、右图像提取多尺度特征 \mathbf{f}_{l,i}, \mathbf{f}_{r,i} \in \mathbb{R}^{C_i imes rac{H}{4} imes rac{W}{4}}, i \in \{4,8,16\}。
- 深度特征编码器:使用冻结的Depth Anything V2 Small,仅从左图像提取多尺度深度特征 \mathbf{f}_{d,i} \in \mathbb{R}^{C_i imes rac{H}{4} imes rac{W}{4}}, i \in \{2,4,8,16\}。
- 选择性通道融合:通过 卷积融合 与 ,输出深度感知特征 。
6. 代价体构建
在 分辨率上,使用左右纹理特征 和 构建组相关代价体积 :
\mathbf{C}(g,d,x,y) = rac{1}{N_c/N_g} \langle \mathbf{f}_{l,4}^{g}(x,y), \mathbf{f}_{r,4}^{g}(x-d,y) angle
其中 为组索引, 为视差索引, 为总组数。
7. 代价体正则化(DDCA)
DDCA模块通过动态卷积自适应地聚合代价体积:
- 视差-深度结构表示:计算视差假设 与深度特征 之间的亲和力矩阵 。
- 视差自适应代价聚合:用 生成动态卷积核 ,对 与 进行分组卷积:
同时使用大小卷积核融合低频与高频信息。
8. 深度图生成
- 初始视差预测:对正则化后的代价体积 应用 soft-argmin:
- 迭代细化:使用单层GRU,以深度特征初始化隐藏状态 ,结合几何特征 逐步更新视差:
- 空间上采样:利用深度特征辅助,通过加权局部邻域的方式将低分辨率视差图上采样至全分辨率。
9. 损失函数
论文未明确给出损失函数公式,但从上下文可知训练时使用了合成数据集(Scene Flow),并可能采用平滑L1或L2损失监督视差图,同时可能结合了多尺度损失。
10. 测试数据集
- Scene Flow:合成数据集,用于训练与域内评估。
- KITTI 2012 & 2015:真实世界驾驶场景数据集,用于零样本泛化与微调评估。
- ETH3D:室内外灰度立体数据集,用于评估泛化能力。
- Middlebury V3:室内立体数据集(quarter分辨率),用于跨域泛化评估。
11. 消融实验
消融实验验证了以下组件(表4):
- 深度特征编码器(DFE):引入预训练MFM提升泛化。
- 选择性通道融合(SCF):融合纹理与深度特征,提升域内拟合。
- 动态代价聚合(DCA):仅用纹理特征引导时提升域内性能但泛化有限;结合深度特征后全面提升。
- 完整模型(GGEV):综合所有模块,在精度与泛化上均取得最佳平衡。
- 不同MFM替代:尝试使用MoGe-2替代Depth Anything V2,仍优于基线。
- 亲和力矩阵构建方式:验证了以深度特征为键、视差假设为查询的方式最佳。
12. 其他亮点
- 实时性:在KITTI分辨率下推理时间约47ms,满足实时需求(<100ms)。
- 参数效率:仅比基线增加0.08M参数(约2%)。
- 反射区域处理:在KITTI反射区域评估中表现优异,优于多数实时方法。


