IB-MVSNet

基本信息

项目 内容
论文标题 IB-MVS (Iterative Algorithm for Deep Multi-View Stereo based on Binary Decisions)
作者 Christian Sormann, Mattia Rossi, Andreas Kuhn, Friedrich Fraundorfer
作者单位 Graz University of Technology (奥地利格拉茨技术大学,Institute of Computer Graphics and Vision)
时间 2021
发表会议/期刊

方法概览

特点 文章性质
输入 校正图像对
输出 视差图
所属领域 双目stereo

摘要

本文提出 IB-MVS,一种基于二进制决策的迭代式深度多视图立体(MVS)方法。该方法无需构建内存密集型代价体,通过迭代探索连续深度空间,为每个像素预测二进制决策掩码,判断真值深度在当前假设深度的前方或后方,进而更新深度假设。为处理遮挡区域,引入学习型权重网络(W-Net)估计像素级权重,融合多源图像的深度假设。IB-MVS 能高效处理高分辨率图像,在 DTU、Tanks and Temples 及 ETH3D 等基准数据集上取得具有竞争力的结果,兼顾精度与效率。


引言动机

现有学习型 MVS 方法面临核心瓶颈:

  1. 传统方法需离散化深度空间并构建 3D 代价体,内存消耗随图像分辨率和离散步数呈二次增长,存在严重计算与内存瓶颈;

  2. 级联代价体方法(如 CasMVSNet)虽缓解了部分问题,但仍依赖预定义启发式规则离散化深度空间,需针对不同数据集调整,泛化性有限。

    作者指出,MVS 的本质是探索连续深度空间,无需通过密集离散化构建代价体。因此提出基于二进制决策的迭代架构,通过逐次缩小深度搜索范围,在不损失分辨率和精度的前提下,避免代价体带来的资源消耗,同时处理多源图像的遮挡问题。


创新点

1. 基于二值决策的迭代深度估计

将MVS问题转化为迭代二值分类问题,每次迭代预测像素级二值掩码Bst(i,j)B^t_s(i,j),指示真实深度dGT(i,j)d_{GT}(i,j)与当前深度假设ht(i,j)h^t(i,j)的相对位置关系:

Bst(i,j)GT={1dGT(i,j)<ht(i,j)0otherwiseB^t_s(i,j)_{GT} = \begin{cases}1 & d_{GT}(i,j) < h^t(i,j) \\ 0 & \text{otherwise}\end{cases}

2. 逆深度空间的高效搜索

在逆深度域进行操作,提高大深度范围场景的性能。深度更新公式为:

Hst+1(i,j)=Ht(i,j)R2t+1(2Bst(i,j)1)H^{t+1}_s(i,j) = H^t(i,j) - \frac{R}{2^{t+1}}(2B^t_s(i,j)-1)

其中R=DmaxDmin2R = \frac{D_{max}-D_{min}}{2}H=1/hH = 1/h为逆深度。

3. 基于学习的多视角融合策略(W-Net)

使用权重网络(W-Net)预测像素级权重,融合来自不同源图像的深度假设:

Ht+1(i,j)=1Wt(i,j)s=0S1Wst(i,j)Hst+1(i,j)H^{t+1}(i,j) = \frac{1}{W^t(i,j)}\sum_{s=0}^{S-1}W^t_s(i,j)H^{t+1}_s(i,j)

其中Wt(i,j)=s=0S1Wst(i,j)W^t(i,j) = \sum_{s=0}^{S-1}W^t_s(i,j)

4. 可变形卷积的极线采样

在决策网络(D-Net)中使用可变形卷积,沿极线采样源图像特征,将k×kk \times k核的采样位置变形到极线上(k=5k=5),有效利用几何约束。

5 三阶段训练策略

  • 预训练阶段:用随机深度假设训练 D-Net,学习二进制决策逻辑;
  • 迭代训练阶段:固定 W-Net,仅用单源图像迭代更新深度假设,优化 D-Net 的迭代适应性;
  • 联合训练阶段:D-Net 与 W-Net 联合训练,融合多源图像深度假设,提升遮挡处理能力。

网络架构

image-20251127001237592

IB-MVS系统包含三个核心组件:

  1. 特征提取网络:使用FPN从参考图像和源图像提取多尺度特征
  2. 决策网络(D-Net):U-Net结构,预测二值决策掩码BstB^t_s
  3. 权重网络(W-Net):基于熵的置信度预测,生成融合权重WstW^t_s

系统在三个分辨率级别(1/4, 1/2, 全分辨率)上操作,实现由粗到细的优化。

迭代流程为:初始化逆深度假设→D-Net 预测二进制掩码→更新多源深度假设→W-Net 预测权重→融合得到下一阶段假设→重复至 T 次。


特征提取

  • 使用FPN(特征金字塔网络)提取参考图像和源图像的特征,提取 3 个尺度的特征图:四分之一分辨率(l=0)、半分辨率(l=1)、全分辨率(l=2);
  • 每个分辨率级别的特征通道数分别为Fl=(32,16,8)F_l = (32,16,8)
  • 将FPN中的批归一化替换为实例归一化

代价体构建

  • IB-MVS不构建传统 3D 代价体,以 “二进制决策掩码” 替代代价体的匹配成本计算:
    1. 对于每个迭代阶段t和源图像s,基于当前逆深度假设HtH_t,通过可变形卷积沿极线采样源图特征,与参考图特征拼接;
    2. D-Net 对拼接特征进行处理,输出软二进制掩码BstB_s^t(取值范围 [0,1]),掩码值直接反映 “真值深度在假设前方” 的置信度,替代传统代价体的 “匹配成本” 含义;
    3. 无需存储多深度假设的成本信息,仅通过掩码值即可指导深度假设更新,彻底规避代价体的内存开销。

代价体正则化

不适用 - 该方法不构建3D代价体,因此不需要代价体正则化步骤。正则化通过以下方式实现:

  1. 多尺度 D-Net 正则化:全分辨率、半分辨率、四分之一分辨率的 D-Net 层层递进,前一尺度输出约束后一尺度预测,减少掩码噪声;
  2. 权重过滤正则化:W-Net 预测的权重掩码对多源图像的深度假设进行加权融合,抑制遮挡区域的不可靠假设,相当于对 “有效匹配信息” 的正则化;
  3. 迭代更新正则化:步长随迭代次数指数减小,深度假设逐步细化,避免更新幅度过大导致的不稳定,间接实现深度估计的正则化。

深度图生成

深度图通过迭代优化过程生成:

  1. 初始化逆深度假设H0(i,j)=Dmax+Dmin2H^0(i,j) = \frac{D_{max}+D_{min}}{2},其中Dmin=1/dmax,Dmax=1/dmin;
  2. 对每个迭代t=0t=0T1T-1
    • 使用D-Net预测二值掩码BstB^t_s
    • 使用W-Net预测融合权重WstW^t_s,融合来自不同源图像的深度假设:

      Ht+1(i,j)=1Wt(i,j)s=0S1Wst(i,j)Hst+1(i,j)H^{t+1}(i,j) = \frac{1}{W^t(i,j)}\sum_{s=0}^{S-1}W^t_s(i,j)H^{t+1}_s(i,j)

      其中Wt(i,j)=s=0S1Wst(i,j)W^t(i,j) = \sum_{s=0}^{S-1}W^t_s(i,j)
    • 更新逆深度假设Hst+1H^{t+1}_s
    • 融合多视角结果得到Ht+1H^{t+1}
  3. 最终深度图d=1/HTd = 1/H^T

损失函数

总体损失为多分辨率加权和:

L=k=02λkLk,λ0,1,2=(0.25,0.5,1.0)L = \sum_{k=0}^2\lambda_kL_k, \quad \lambda_{0,1,2} = (0.25,0.5,1.0)

使用二元交叉熵损失训练D-Net:

Lk=1Vi,jV(i,j)BCE(B(i,j),BGT(i,j))L_k = \frac{1}{\overline{V}}\sum_{i,j}V(i,j)\text{BCE}(B(i,j),B_{GT}(i,j))

其中BCE(b,bGT)=(bGTlog(b)+(1bGT)log(1b))\text{BCE}(b,b_{GT}) = -(b_{GT}\log(b) + (1-b_{GT})\log(1-b))


测试数据集

  • DTU:室内物体数据集,用于精确重建评估
  • Tanks and Temples:大规模室内外场景,包含Intermediate和Advanced子集
  • ETH3D:高分辨率图像,包含高分辨率和低分辨率子集,最具挑战性

消融实验

1. 迭代次数分析

测试不同迭代次数TT的性能:

  • T=6T=6: 平均误差0.717
  • T=7T=7: 平均误差0.371
  • T=8T=8: 平均误差0.321(最佳)
  • T=9T=9: 平均误差0.343(性能饱和)

2. 融合策略比较

比较W-Net融合与简单平均融合:

  • W-Net融合:完整性0.309,平均0.321
  • 平均融合:完整性0.359,平均0.342
  • W-Net在保持精度的同时显著改善完整性

3. 分辨率级别影响

验证多分辨率架构的有效性,显示三个分辨率级别能提供更大的感受野和更精细的掩码优化。

4. 训练策略分析

采用三阶段训练:D-Net预训练 → 单源图像迭代训练 → 多源图像联合训练,证明该策略的有效性。