EPP-MVSNet(Epipolar-assembling based Depth Prediction for Multi-view Stereo)

基本信息

项目 内容
论文标题 EPP-MVSNet(Epipolar-assembling based Depth Prediction for Multi-view Stereo)
作者 Xinjun Ma, Yue Gong, Qirui Wang, Jingwei Huang, Lei Chen, Fan Yu
作者单位 华为技术有限公司
时间 2021
发表会议/期刊 ICCV

方法概览

特点 文章性质
输入 多视角
输出 参考视角深度图
所属领域 MVS

摘要精简

本文提出 EPP-MVSNet,一种基于极线组装的多视图立体 3D 重建网络。该网络通过极线组装模块,将高分辨率特征自适应聚合到有限尺寸的代价体中,充分利用图像分辨率的同时控制内存消耗;引入熵基精炼策略,根据深度预测置信度动态调整深度假设范围,减少代价体冗余;采用融合伪 3D 卷积的轻量正则网络,在保证精度的前提下提升推理效率。EPP-MVSNet 在 Tanks & Temples、ETH3D 和 DTU 数据集上表现优异,其中在 Tanks & Temples intermediate 基准测试中取得最高 F-score,兼顾重建效果与效率。

研究动机与出发点

当前学习-based MVS方法在构建和正则化代价体时需要高内存和计算量,无法充分利用高分辨率图像。虽然基于块匹配的方法可以通过搜索最小代价来克服这个问题,但现有方法仍然存在效率问题。作者旨在设计一个能够充分利用高分辨率图像信息的深度神经网络。

3. 创新点

3.1 极线组装模块(Epipolar-Assembling Module)

  • 针对粗阶段代价体构建,提出沿极线自适应聚合高分辨率特征的策略。通过在极线上以半像素最优间隔密集插值特征点,再通过 3×1×1 卷积聚合邻域特征和自适应窗口大小的最大池化,将高分辨率代价体压缩为紧凑尺寸。
  • 突破了传统方法中 “深度假设数量决定代价体分辨率” 的约束,在有限内存消耗下充分利用高分辨率图像信息,提升粗阶段深度预测精度。

3.2 熵基精炼策略(Entropy-based Refining Strategy)VisMVSNet同款

  • 基于概率体的熵值衡量深度预测置信度,熵值越大表示置信度越低,需更大的深度假设范围;反之则缩小范围。

3.3 轻量代价体正则网络(Light-weighted Regularization Network)

  • 用伪 3D 卷积替代传统 3D 卷积,将 3D 卷积分解为空间维度的 1×3×3 卷积和深度维度的 3×1×1 卷积,分别捕捉空间邻域和深度维度的相关性。
  • 在不损失重建精度的前提下,大幅降低计算量和内存消耗,提升网络训练与推理效率。

3.4 多阶段协同架构

  • 粗阶段采用极线组装模块构建高质量代价体,联合预测深度图与可见性图;细阶段复用粗阶段上采样后的可见性图融合代价体,通过熵基策略优化深度范围,仅需轻量正则即可实现高精度精炼。

网络架构

EPP-MVSNet 采用粗到精三阶段架构(1 个粗阶段 + 2 个细阶段),整体流程分为四大核心步骤,各阶段均包含该流程:

特征提取:生成多尺度金字塔特征;

代价体构建:粗阶段用极线组装模块,细阶段用熵基精炼策略;

代价体正则:粗阶段含 pairwise 正则和融合正则,细阶段仅需融合正则;

深度回归与概率体生成:输出深度图与对应概率体,为下一阶段提供置信度信息。

特征提取

采用金字塔特征提取策略,对参考图像和源图像分别提取多尺度特征:

  1. 输入图像经卷积层逐步下采样,生成不同空间分辨率的特征图,适配粗、细阶段的代价体构建需求;
  2. 特征图维度统一为固定通道数,确保后续代价计算的一致性;
  3. 所有图像共享特征提取权重,保证特征空间的一致性,便于跨视图匹配。

代价体构建

粗阶段 - 极线装配模块

image-20251126234708680

通过密集插值极线上的点构建高分辨率代价体,经极线组装模块**(3×1×1 卷积聚合 + 自适应最大池化)**压缩为紧凑代价体。

论文用的是 3×1×1 的卷积核 做聚合:这里的 “3” 对应极线方向(只沿极线合并 3 个相邻点),“1×1” 对应图像的其他两个方向(不合并,避免跨极线的信息干扰)。比如极线上有 “点 A - 点 B - 点 C”,用这个卷积把它们的代价合并成一个 “代表值”,既能保留极线上的细节(比如点 B 是边缘,合并后仍能体现),又能减少代价体的通道数。最后一步是 “压缩”:沿 “深度方向”(也就是 “假设深度” 的数量方向)做最大池化,把原本上百个深度假设的代价,压缩到和初始离散采样点数量一致(比如 32 个)。这里的 “自适应” 是指:池化窗口的大小会根据 “插值率” 调整(比如插值后有 64 个点,要压缩回 32 个,窗口就设为 2)。最大池化的好处是 —— 只保留每个窗口里 “匹配代价最小” 的那个值(代价小意味着匹配度高),相当于筛选出极线上最可能的对应点,进一步提升代价体的可靠性。

costa(pms)=pmsα2pms+α2Ω(cost(x))dxcost^a(p_m^s)=\int_{p_m^s-\frac{\alpha}{2}}^{p_m^s+\frac{\alpha}{2}}\Omega(cost(x))\mathrm{d}x

细阶段 - 基于熵的细化策略
根据上一阶段概率体的熵值计算置信度,动态调整深度假设范围;在新范围内构建代价体,通过组相关性计算匹配代价,确保代价体无冗余且覆盖真值深度。如果概率分布很"集中"(熵小)→ 我们很确定深度是多少

Ek(p)=m=0M1Pk(p,dmk)logMPk(p,dmk)E^k(p)=-\sum_{m=0}^{M-1}P^k(p,d_m^k)\log_M P^k(p,d_m^k)

动态调整细阶段深度假设范围,不确定性大(熵大)→ 用大一点的搜索范围,公式为:

rk+1=(MλEk(p)M)rkr^{k+1}=(\frac{M^{\lambda\cdot\overline{E^k(p)}}}{M})\cdot r^k

代价体正则化(学VisMVSNet先成对输出可视性然后融合,但是用了伪3DCNN)

采用轻量级正则化网络,使用Pseudo-3D卷积(伪 3D 卷积)替代标准3D卷积:

  1. 粗阶段:包含两个 2 块 3D U-Net,分别对 pairwise 代价体进行正则化(输出可见性图)和对融合代价体进行正则化;
  2. 细阶段:仅用 1 个 2 块 3D U-Net 对融合代价体进行正则化;
  3. 伪 3D 卷积操作:先通过 1×3×3 卷积捕捉空间邻域像素的相关性,再通过 3×1×1 卷积捕捉同一像素不同深度假设的相关性,避免传统 3D 卷积的冗余计算,提升正则化效率。

补充知识-伪3DCNN

在代价体正则化中,传统3D卷积是这样的:它在空间(宽高)和深度维度上同时做卷积。

1
conv3d(kernel=3x3x3)  # 27个参数,计算量大

伪3D卷积的做法

把3D卷积拆成2步:

第1步 - 处理空间关系(只看同一深度的邻居):

1
conv2d(kernel=1x3x3)  # 只看同一深度的左右邻居

第2步 - 处理深度关系(只看同一位置的不同深度):

python

1
conv1d(kernel=3x1x1)  # 只看同一位置的不同深度假设

计算量对比

  • 标准3D卷积:3×3×3 = 27 次计算
  • 伪3D卷积:(3×3) + 3 = 12 次计算

深度图生成

  1. 深度回归:正则化后的代价体通过 soft-argmin 操作生成当前阶段的深度图 Dk,同时输出对应概率体 Pk;
  2. 多阶段精炼:粗阶段输出的深度图经上采样后作为细阶段的深度假设中心,细阶段通过熵基策略调整范围,逐步提升深度图分辨率与精度;
  3. 后处理:采用**动态一致性检查方法(这个就是MVSNet那个,重投影两次看差距过滤)**过滤低置信度深度像素,融合所有阶段的深度图,生成最终 3D 稠密点云。

损失函数

使用所有阶段预测深度图的L1L_1损失总和,以及粗阶段概率体的不确定性损失:

L=k=13L1(Dk,Dgt)+Luncertainty\mathcal{L} = \sum_{k=1}^{3} L_1(D^k, D_{gt}) + \mathcal{L}_{uncertainty}

L1 损失:衡量各阶段预测深度图 Dk 与地面真值 Dgt 的绝对误差,保证深度回归精度;

不确定性损失:基于粗阶段概率体 P1 计算,鼓励网络输出置信度高的概率分布,提升粗阶段预测的可靠性,为细阶段精炼提供高质量初始值。

测试数据集

  • Tanks & Temples:室外和室内真实场景基准测试
  • ETH3D:包含复杂自然场景和人造环境的多样化数据集
  • DTU:室内物体扫描数据集

11. 消融实验内容

消融实验基于 DTU 数据集,验证各核心模块的有效性:

  1. 极线组装模块(EAM):对比无 EAM(不同深度假设数量)与有 EAM 的粗阶段重建效果,验证 EAM 在有限深度假设下聚合高分辨率特征的能力;
  2. EAM 核结构:测试不同卷积核尺寸(3×1×1、5×1×1、1×1×1)和池化方式(最大池化、平均池化)对重建精度的影响;
  3. 熵基精炼策略(ER):对比细阶段有无 ER 的重建效果,验证动态深度范围调整对精度的提升;
  4. 伪 3D 卷积:对比传统 3D 卷积与伪 3D 卷积的重建精度、运行时间和内存消耗,验证伪 3D 卷积的效率优势。

创新点详解

极线装配模块

传统的代价体构建在离散的深度假设位置采样特征,而EPP-MVSNet通过在极线上密集插值点(半像素间隔)构建高分辨率代价体,然后通过设计的装配网络(包含聚合和池化步骤)将其降采样到紧凑的代价体。这种方法充分利用了图像分辨率信息,同时保持了代价体的大小可控。

基于熵的细化策略

在多阶段结构中,细阶段的深度假设范围传统上通过固定因子缩小。EPP-MVSNet利用粗阶段预测的概率体熵来度量深度预测的置信度,并据此自适应调整细阶段的深度范围。高熵(低置信度)区域使用较大范围,低熵(高置信度)区域使用较小范围,从而在减少冗余的同时确保真实深度包含在假设范围内。

轻量级正则化网络

通过用Pseudo-3D卷积替代标准3D卷积,将卷积操作分离到空间维度和深度维度,显著降低了计算复杂度和内存消耗,同时保持了正则化效果。这种设计基于代价体在空间和深度维度上不同特性的观察,使得网络更加高效。

整体架构优势

EPP-MVSNet通过上述创新点的结合,在高分辨率图像上实现了准确且高效的深度预测,在多个基准测试上取得了最先进的结果,同时在运行时间和内存消耗方面表现出色。