论文阅读_IGEV
IGEV
Iterative Geometry Encoding Volume for Stereo Matching
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | Iterative Geometry Encoding Volume for Stereo Matching |
| 作者 | Gangwei Xu, Xianqi Wang, Xiaohuan Ding, Xin Yang |
| 作者单位 | 华中科技大学 (Huazhong University of Science and Technology) |
| 时间 | 2025 |
| 发表会议/期刊 | 未明确标注(预印本,可能为CVPR/ICCV等会议投稿) |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | 一对校正后的立体图像(左右视图) |
| 输出 | 稠密视差图 |
| 所属领域 | 计算机视觉,立体匹配 |
1. 摘要精简
本文提出了 迭代几何编码体积 (IGEV-Stereo),一种用于立体匹配的新型深度网络架构。针对RAFT-Stereo中全对相关性 (APC) 缺乏非局部几何知识、在病态区域处理能力不足的问题,IGEV构建了一个组合几何编码体积 (CGEV)。该体积通过轻量级3D CNN对代价体进行正则化,编码了场景的几何与上下文信息,并保留了APC的局部匹配细节。网络从该体积中回归出初始视差,然后通过ConvGRU迭代索引更新,从而结合了基于代价滤波和基于迭代优化两类方法的优势。该方法在KITTI 2015和2012 (Reflective) 榜单上名列第一,同时具有出色的跨数据集泛化能力和推理效率。
2. 引言与出发点
立体匹配是3D场景几何重建的关键技术。现有方法主要分为两类:
- 基于代价滤波的方法:使用3D CNN聚合和正则化4D代价体积,能编码丰富的非局部几何信息,但对高分辨率图像计算和内存成本高。
- 基于迭代优化的方法:如RAFT-Stereo,通过迭代更新避免昂贵的代价聚合,但对APC的依赖使其在遮挡、无纹理等病态区域存在局部模糊性,缺乏非局部信息引导。
本文的出发点在于结合这两类方法的互补优势:
既要保留迭代方法的高效性,又要为迭代更新过程提供包含几何和上下文信息的更强场景表示,以提升在病态区域的鲁棒性和每次迭代的有效性。
3. 创新点
3.1 组合几何编码体积 (CGEV)
- 几何编码体积 (GEV):使用一个轻量级3D UNet对组相关代价体积进行正则化,使其编码场景的几何结构与上下文先验。
- 组合 (CGEV):将GEV与APC结合,形成CGEV。GEV提供全局几何信息,APC补充局部匹配细节,共同为后续迭代优化提供更全面、更鲁棒的输入。
3.2 从GEV回归初始视差
- 不同于RAFT-Stereo从零开始迭代,IGEV对GEV应用
soft argmin回归一个相对准确的初始视差图。 - 这为ConvGRU更新算子提供了一个高质量的起点,显著加快了收敛速度,减少了达到优异性能所需的迭代次数。
3.3 迭代优化范式
- 构建了“构建强表示(CGEV)-> 回归初始估计 -> 迭代优化”的新范式。
- 通过ConvGRU迭代地从CGEV中索引几何特征来更新视差,有效利用了CGEV中的丰富信息。
3.4 扩展至多视图立体 (MVS)
- 将IGEV框架扩展至MVS任务 (IGEV-MVS),在DTU基准上取得了有竞争力的精度,证明了该框架的通用性。
4. 网络架构
网络包含四个主要阶段(对应图3):
- 特征提取器:提取多尺度特征和上下文特征。
- 组合几何编码体积 (CGEV) 构建:构建组相关体积,经3D CNN正则化为GEV,再与APC结合形成CGEV。
- ConvGRU-based更新算子:从GEV回归初始视差,然后以CGEV为查询库,通过ConvGRU迭代更新视差。
- 空间上采样模块:将低分辨率视差图上采样至全分辨率。
5. 特征提取
- 特征网络:使用ImageNet预训练的MobileNetV2,提取左右图像的多尺度特征 \mathbf{f}_{l,i}, \mathbf{f}_{r,i} \in \mathbb{R}^{C_i imes rac{H}{4} imes rac{W}{4}} (=4,8,16,32)。 和 用于构建代价体,其他尺度特征用于指导3D正则化网络。
- 上下文网络:由残差块和下采样层组成,提取多尺度上下文特征(1/4, 1/8, 1/16分辨率),用于初始化ConvGRU的隐藏状态并在每次迭代中传入。
6. 代价体构建
在1/4分辨率上,使用左右特征 和 构建组相关代价体积:
\mathbf{C}_{corr}(g,d,x,y)=rac{1}{N_c/N_g}\langle\mathbf{f}^{g}_{l,4}(x,y),\mathbf{f}^{g}_{r,4}(x-d,y) angle
其中 为组索引, 为视差索引,。
7. 代价体正则化 (生成GEV)
使用一个轻量级3D UNet作为正则化网络 处理 ,得到几何编码体积 :
为了增强正则化效果,引入了引导代价体积激励操作(借鉴CoEx):
其中 是sigmoid函数, 是逐元素乘积, 是左图特征,用于对代价体通道进行加权。
8. 深度图生成
- 初始视差回归:对GEV应用
soft argmin回归初始视差 : - 迭代优化:使用三层ConvGRU进行迭代更新。在每次迭代 ,根据当前视差 从CGEV及其池化金字塔中通过线性插值索引出一组几何特征 。
将 和 编码后,与上下文特征一同输入ConvGRU更新隐藏状态 ,并解码出残差视差 $ riangle \mathbf{d}_k$,更新当前视差:
- 空间上采样:利用更高分辨率的上下文特征(上采样至1/2)与左图特征 结合,预测权重图,通过加权邻域组合将1/4分辨率的视差图上采样至全分辨率。
9. 损失函数
损失函数由两部分组成:
- 初始视差 的平滑L1损失。
- 所有迭代预测视差 的L1损失,并随时间步指数衰减权重。
10. 测试数据集
- Scene Flow:合成数据集,用于训练和域内评估。
- KITTI 2012 & 2015:真实世界驾驶场景数据集,用于微调及最终性能评估。
- Middlebury 2014:室内数据集,用于评估跨域泛化能力。
- ETH3D:室内外灰度立体数据集,用于评估跨域泛化能力。
- DTU:多视图立体数据集,用于验证IGEV框架扩展至MVS任务 (IGEV-MVS) 的性能。
11. 消融实验
消融实验主要验证了以下组件和设计选择:
- CGEV的有效性(表1):逐步添加GEV、从GEV回归初始视差、对GEV施加监督、最终结合APC形成CGEV,每一步均带来精度提升,证明了CGEV设计的有效性。
- 迭代次数的影响(表2):在相同迭代次数下,IGEV-Stereo的性能远优于RAFT-Stereo。仅用3次迭代(100ms)的IGEV即可超越RAFT-Stereo 32次迭代(440ms)的性能,证明了其高迭代效率和快速收敛能力。
- 配置探索(表3):使用更轻量的1/8分辨率GEV、或更强的骨干网络(MobileNetV2 120d, ConvNeXt-B)对性能的影响。
- 病态区域性能(表6):在KITTI 2012的反射区域(ill-posed regions)评估,IGEV-Stereo显著优于RAFT-Stereo,证明了其几何编码体积在处理挑战性区域的优越性。
- 零样本泛化能力(表7):仅在Scene Flow上训练,直接在Middlebury和ETH3D上测试,IGEV-Stereo取得了领先的泛化性能。
- 扩展至MVS(表8):IGEV-MVS在DTU基准上取得了有竞争力的整体分数,验证了框架的通用性。
注:所有公式已按Markdown格式编写,可直接复制到Typora中使用。


