IGEV

Iterative Geometry Encoding Volume for Stereo Matching

基本信息

项目 内容
论文标题 Iterative Geometry Encoding Volume for Stereo Matching
作者 Gangwei Xu, Xianqi Wang, Xiaohuan Ding, Xin Yang
作者单位 华中科技大学 (Huazhong University of Science and Technology)
时间 2025
发表会议/期刊 未明确标注(预印本,可能为CVPR/ICCV等会议投稿)

方法概览

特点 文章性质
输入 一对校正后的立体图像(左右视图)
输出 稠密视差图
所属领域 计算机视觉,立体匹配

1. 摘要精简

本文提出了 迭代几何编码体积 (IGEV-Stereo),一种用于立体匹配的新型深度网络架构。针对RAFT-Stereo中全对相关性 (APC) 缺乏非局部几何知识、在病态区域处理能力不足的问题,IGEV构建了一个组合几何编码体积 (CGEV)。该体积通过轻量级3D CNN对代价体进行正则化,编码了场景的几何与上下文信息,并保留了APC的局部匹配细节。网络从该体积中回归出初始视差,然后通过ConvGRU迭代索引更新,从而结合了基于代价滤波基于迭代优化两类方法的优势。该方法在KITTI 2015和2012 (Reflective) 榜单上名列第一,同时具有出色的跨数据集泛化能力和推理效率。

2. 引言与出发点

立体匹配是3D场景几何重建的关键技术。现有方法主要分为两类:

  • 基于代价滤波的方法:使用3D CNN聚合和正则化4D代价体积,能编码丰富的非局部几何信息,但对高分辨率图像计算和内存成本高。
  • 基于迭代优化的方法:如RAFT-Stereo,通过迭代更新避免昂贵的代价聚合,但对APC的依赖使其在遮挡、无纹理等病态区域存在局部模糊性,缺乏非局部信息引导。

本文的出发点在于结合这两类方法的互补优势:

既要保留迭代方法的高效性,又要为迭代更新过程提供包含几何和上下文信息的更强场景表示,以提升在病态区域的鲁棒性和每次迭代的有效性。

3. 创新点

3.1 组合几何编码体积 (CGEV)

  • 几何编码体积 (GEV):使用一个轻量级3D UNet对组相关代价体积进行正则化,使其编码场景的几何结构与上下文先验。
  • 组合 (CGEV):将GEV与APC结合,形成CGEV。GEV提供全局几何信息,APC补充局部匹配细节,共同为后续迭代优化提供更全面、更鲁棒的输入。

3.2 从GEV回归初始视差

  • 不同于RAFT-Stereo从零开始迭代,IGEV对GEV应用 soft argmin 回归一个相对准确的初始视差图
  • 这为ConvGRU更新算子提供了一个高质量的起点,显著加快了收敛速度,减少了达到优异性能所需的迭代次数。

3.3 迭代优化范式

  • 构建了“构建强表示(CGEV)-> 回归初始估计 -> 迭代优化”的新范式。
  • 通过ConvGRU迭代地从CGEV中索引几何特征来更新视差,有效利用了CGEV中的丰富信息。

3.4 扩展至多视图立体 (MVS)

  • 将IGEV框架扩展至MVS任务 (IGEV-MVS),在DTU基准上取得了有竞争力的精度,证明了该框架的通用性。

4. 网络架构

网络包含四个主要阶段(对应图3):

  1. 特征提取器:提取多尺度特征和上下文特征。
  2. 组合几何编码体积 (CGEV) 构建:构建组相关体积,经3D CNN正则化为GEV,再与APC结合形成CGEV。
  3. ConvGRU-based更新算子:从GEV回归初始视差,然后以CGEV为查询库,通过ConvGRU迭代更新视差。
  4. 空间上采样模块:将低分辨率视差图上采样至全分辨率。

5. 特征提取

  • 特征网络:使用ImageNet预训练的MobileNetV2,提取左右图像的多尺度特征 \mathbf{f}_{l,i}, \mathbf{f}_{r,i} \in \mathbb{R}^{C_i imes rac{H}{4} imes rac{W}{4}} (ii=4,8,16,32)。fl,4\mathbf{f}_{l,4}fr,4\mathbf{f}_{r,4} 用于构建代价体,其他尺度特征用于指导3D正则化网络。
  • 上下文网络:由残差块和下采样层组成,提取多尺度上下文特征(1/4, 1/8, 1/16分辨率),用于初始化ConvGRU的隐藏状态并在每次迭代中传入。

6. 代价体构建

在1/4分辨率上,使用左右特征 fl,4\mathbf{f}_{l,4}fr,4\mathbf{f}_{r,4} 构建组相关代价体积

\mathbf{C}_{corr}(g,d,x,y)= rac{1}{N_c/N_g}\langle\mathbf{f}^{g}_{l,4}(x,y),\mathbf{f}^{g}_{r,4}(x-d,y) angle

其中 gg 为组索引,dd 为视差索引,Ng=8N_g=8

7. 代价体正则化 (生成GEV)

使用一个轻量级3D UNet作为正则化网络 R\mathbf{R} 处理 Ccorr\mathbf{C}_{corr},得到几何编码体积 CG\mathbf{C}_G

CG=R(Ccorr)\mathbf{C}_{G}=\mathbf{R}(\mathbf{C}_{corr})

为了增强正则化效果,引入了引导代价体积激励操作(借鉴CoEx):

Ci=σ(fl,i)Ci\mathbf{C}^{\prime}_{i}=\sigma(\mathbf{f}_{l,i})\odot\mathbf{C}_{i}

其中 σ\sigma 是sigmoid函数,\odot 是逐元素乘积,fl,i\mathbf{f}_{l,i} 是左图特征,用于对代价体通道进行加权。

8. 深度图生成

  1. 初始视差回归:对GEV应用 soft argmin 回归初始视差 d0\mathbf{d}_0

    d0=d=0D1dimesSoftmax(CG(d))\mathbf{d}_{0}=\sum_{d=0}^{D-1}d imes Softmax(\mathbf{C}_{G}(d))

  2. 迭代优化:使用三层ConvGRU进行迭代更新。在每次迭代 kk,根据当前视差 dk\mathbf{d}_k 从CGEV及其池化金字塔中通过线性插值索引出一组几何特征 Gf\mathbf{G}_f

    Gf=i=rrextConcat{CG(dk+i),CA(dk+i),CGp(dk/2+i),CAp(dk/2+i)}\mathbf{G}_{f}=\sum_{i=-r}^{r} ext{Concat}\{\mathbf{C}_{G}(\mathbf{d}_{k}+i),\mathbf{C}_{A}(\mathbf{d}_{k}+i),\mathbf{C}^{p}_{G}(\mathbf{d}_{k}/2+i),\mathbf{C}^{p}_{A}(\mathbf{d}_{k}/2+i)\}

    Gf\mathbf{G}_fdk\mathbf{d}_k 编码后,与上下文特征一同输入ConvGRU更新隐藏状态 hkh_k,并解码出残差视差 $ riangle \mathbf{d}_k$,更新当前视差:

    dk+1=dk+riangledk\mathbf{d}_{k+1}=\mathbf{d}_{k}+ riangle \mathbf{d}_{k}

  3. 空间上采样:利用更高分辨率的上下文特征(上采样至1/2)与左图特征 fl,2\mathbf{f}_{l,2} 结合,预测权重图,通过加权邻域组合将1/4分辨率的视差图上采样至全分辨率。

9. 损失函数

损失函数由两部分组成:

  1. 初始视差 d0\mathbf{d}_0 的平滑L1损失。
  2. 所有迭代预测视差 {di}i=1N\{\mathbf{d}_i\}_{i=1}^{N} 的L1损失,并随时间步指数衰减权重。

Lstereo=SmoothL1(d0dgt)+i=1NγNididgt1,γ=0.9\mathcal{L}_{stereo}=Smooth_{L_{1}}(\mathbf{d}_0-\mathbf{d}_{gt}) + \sum_{i=1}^{N}\gamma^{N-i}||\mathbf{d}_{i}-\mathbf{d}_{gt}||_1, \quad \gamma=0.9

10. 测试数据集

  • Scene Flow:合成数据集,用于训练和域内评估。
  • KITTI 2012 & 2015:真实世界驾驶场景数据集,用于微调及最终性能评估。
  • Middlebury 2014:室内数据集,用于评估跨域泛化能力。
  • ETH3D:室内外灰度立体数据集,用于评估跨域泛化能力。
  • DTU:多视图立体数据集,用于验证IGEV框架扩展至MVS任务 (IGEV-MVS) 的性能。

11. 消融实验

消融实验主要验证了以下组件和设计选择:

  • CGEV的有效性(表1):逐步添加GEV、从GEV回归初始视差、对GEV施加监督、最终结合APC形成CGEV,每一步均带来精度提升,证明了CGEV设计的有效性。
  • 迭代次数的影响(表2):在相同迭代次数下,IGEV-Stereo的性能远优于RAFT-Stereo。仅用3次迭代(100ms)的IGEV即可超越RAFT-Stereo 32次迭代(440ms)的性能,证明了其高迭代效率和快速收敛能力。
  • 配置探索(表3):使用更轻量的1/8分辨率GEV、或更强的骨干网络(MobileNetV2 120d, ConvNeXt-B)对性能的影响。
  • 病态区域性能(表6):在KITTI 2012的反射区域(ill-posed regions)评估,IGEV-Stereo显著优于RAFT-Stereo,证明了其几何编码体积在处理挑战性区域的优越性。
  • 零样本泛化能力(表7):仅在Scene Flow上训练,直接在Middlebury和ETH3D上测试,IGEV-Stereo取得了领先的泛化性能。
  • 扩展至MVS(表8):IGEV-MVS在DTU基准上取得了有竞争力的整体分数,验证了框架的通用性。

:所有公式已按Markdown格式编写,可直接复制到Typora中使用。