论文阅读_iB-MVSNet
IB-MVSNet
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | IB-MVS (Iterative Algorithm for Deep Multi-View Stereo based on Binary Decisions) |
| 作者 | Christian Sormann, Mattia Rossi, Andreas Kuhn, Friedrich Fraundorfer |
| 作者单位 | Graz University of Technology (奥地利格拉茨技术大学,Institute of Computer Graphics and Vision) |
| 时间 | 2021 |
| 发表会议/期刊 |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | 校正图像对 |
| 输出 | 视差图 |
| 所属领域 | 双目stereo |
摘要
本文提出 IB-MVS,一种基于二进制决策的迭代式深度多视图立体(MVS)方法。该方法无需构建内存密集型代价体,通过迭代探索连续深度空间,为每个像素预测二进制决策掩码,判断真值深度在当前假设深度的前方或后方,进而更新深度假设。为处理遮挡区域,引入学习型权重网络(W-Net)估计像素级权重,融合多源图像的深度假设。IB-MVS 能高效处理高分辨率图像,在 DTU、Tanks and Temples 及 ETH3D 等基准数据集上取得具有竞争力的结果,兼顾精度与效率。
引言动机
现有学习型 MVS 方法面临核心瓶颈:
-
传统方法需离散化深度空间并构建 3D 代价体,内存消耗随图像分辨率和离散步数呈二次增长,存在严重计算与内存瓶颈;
-
级联代价体方法(如 CasMVSNet)虽缓解了部分问题,但仍依赖预定义启发式规则离散化深度空间,需针对不同数据集调整,泛化性有限。
作者指出,MVS 的本质是探索连续深度空间,无需通过密集离散化构建代价体。因此提出基于二进制决策的迭代架构,通过逐次缩小深度搜索范围,在不损失分辨率和精度的前提下,避免代价体带来的资源消耗,同时处理多源图像的遮挡问题。
创新点
1. 基于二值决策的迭代深度估计
将MVS问题转化为迭代二值分类问题,每次迭代预测像素级二值掩码,指示真实深度与当前深度假设的相对位置关系:
2. 逆深度空间的高效搜索
在逆深度域进行操作,提高大深度范围场景的性能。深度更新公式为:
其中,为逆深度。
3. 基于学习的多视角融合策略(W-Net)
使用权重网络(W-Net)预测像素级权重,融合来自不同源图像的深度假设:
其中。
4. 可变形卷积的极线采样
在决策网络(D-Net)中使用可变形卷积,沿极线采样源图像特征,将核的采样位置变形到极线上(),有效利用几何约束。
5 三阶段训练策略
- 预训练阶段:用随机深度假设训练 D-Net,学习二进制决策逻辑;
- 迭代训练阶段:固定 W-Net,仅用单源图像迭代更新深度假设,优化 D-Net 的迭代适应性;
- 联合训练阶段:D-Net 与 W-Net 联合训练,融合多源图像深度假设,提升遮挡处理能力。
网络架构
IB-MVS系统包含三个核心组件:
- 特征提取网络:使用FPN从参考图像和源图像提取多尺度特征
- 决策网络(D-Net):U-Net结构,预测二值决策掩码
- 权重网络(W-Net):基于熵的置信度预测,生成融合权重
系统在三个分辨率级别(1/4, 1/2, 全分辨率)上操作,实现由粗到细的优化。
迭代流程为:初始化逆深度假设→D-Net 预测二进制掩码→更新多源深度假设→W-Net 预测权重→融合得到下一阶段假设→重复至 T 次。
特征提取
- 使用FPN(特征金字塔网络)提取参考图像和源图像的特征,提取 3 个尺度的特征图:四分之一分辨率(l=0)、半分辨率(l=1)、全分辨率(l=2);
- 每个分辨率级别的特征通道数分别为
- 将FPN中的批归一化替换为实例归一化
代价体构建
- IB-MVS不构建传统 3D 代价体,以 “二进制决策掩码” 替代代价体的匹配成本计算:
- 对于每个迭代阶段t和源图像s,基于当前逆深度假设,通过可变形卷积沿极线采样源图特征,与参考图特征拼接;
- D-Net 对拼接特征进行处理,输出软二进制掩码(取值范围 [0,1]),掩码值直接反映 “真值深度在假设前方” 的置信度,替代传统代价体的 “匹配成本” 含义;
- 无需存储多深度假设的成本信息,仅通过掩码值即可指导深度假设更新,彻底规避代价体的内存开销。
代价体正则化
不适用 - 该方法不构建3D代价体,因此不需要代价体正则化步骤。正则化通过以下方式实现:
- 多尺度 D-Net 正则化:全分辨率、半分辨率、四分之一分辨率的 D-Net 层层递进,前一尺度输出约束后一尺度预测,减少掩码噪声;
- 权重过滤正则化:W-Net 预测的权重掩码对多源图像的深度假设进行加权融合,抑制遮挡区域的不可靠假设,相当于对 “有效匹配信息” 的正则化;
- 迭代更新正则化:步长随迭代次数指数减小,深度假设逐步细化,避免更新幅度过大导致的不稳定,间接实现深度估计的正则化。
深度图生成
深度图通过迭代优化过程生成:
- 初始化逆深度假设,其中Dmin=1/dmax,Dmax=1/dmin;
- 对每个迭代到:
- 使用D-Net预测二值掩码
- 使用W-Net预测融合权重,融合来自不同源图像的深度假设:
其中。
- 更新逆深度假设
- 融合多视角结果得到
- 最终深度图
损失函数
总体损失为多分辨率加权和:
使用二元交叉熵损失训练D-Net:
其中
测试数据集
- DTU:室内物体数据集,用于精确重建评估
- Tanks and Temples:大规模室内外场景,包含Intermediate和Advanced子集
- ETH3D:高分辨率图像,包含高分辨率和低分辨率子集,最具挑战性
消融实验
1. 迭代次数分析
测试不同迭代次数的性能:
- : 平均误差0.717
- : 平均误差0.371
- : 平均误差0.321(最佳)
- : 平均误差0.343(性能饱和)
2. 融合策略比较
比较W-Net融合与简单平均融合:
- W-Net融合:完整性0.309,平均0.321
- 平均融合:完整性0.359,平均0.342
- W-Net在保持精度的同时显著改善完整性
3. 分辨率级别影响
验证多分辨率架构的有效性,显示三个分辨率级别能提供更大的感受野和更精细的掩码优化。
4. 训练策略分析
采用三阶段训练:D-Net预训练 → 单源图像迭代训练 → 多源图像联合训练,证明该策略的有效性。



