ETV-MVS: Robust Visibility-Aware Multi-View Stereo with Epipolar Line-Based Transformer

基本信息

项目 内容
论文标题 ETV-MVS: Robust Visibility-Aware Multi-View Stereo with Epipolar Line-Based Transformer
作者 Shaoqian Wang, Xiaokun Ding, Yuxin Mao, Yuchao Dai*
作者单位 西北工业大学 (Northwestern Polytechnical University)
时间 2025年
发表会议/期刊 Big Data Mining and Analytics (BDMA), Volume 8, Number 3, June 2025

方法概览

特点 文章性质
输入 一个参考图像和多个相邻的源图像,及其相机位姿
输出 参考图像对应的深度图,进而融合为3D点云
所属领域 多视角立体视觉 (Multi-View Stereo)

摘要精简

本文提出了一种新颖的、具有可见性感知能力的多视角立体视觉(MVS)框架ETV-MVS。该框架的核心是基于极线信息的Transformer(ELT)模块有监督的可见性估计(SVE)模块。ELT模块利用图像间的极线对应关系和候选匹配特征来增强特征表示和相关性的鲁棒性。SVE模块则能够直接估计高精度的像素级可见性图,突破了以往方法依赖间接监督的限制。通过整合这两个模块,本方法在多个MVS基准测试中取得了最先进的结果,尤其在具有挑战性的区域(如弱纹理和遮挡区域)也能实现高质量重建。

引言与出发点

在多视角任务中,不同视点之间存在位置变换,这会导致参考图像与不同源图像之间的可见性问题(如遮挡或非重叠区域)。对于存在可见性问题的区域,参考图像与不同源图像之间构建的相关性是不可靠的,从而影响深度估计的准确性。现有方法试图利用相关性来估计可见性图,但其质量严重依赖于相关性的可靠性,且在弱纹理等挑战性区域,相关性往往可靠性较低。此外,当前方法缺乏对可见性图的显式监督,只能通过真实深度图进行间接监督,这限制了可见性图的质量。因此,本文旨在解决两个主要挑战:1) 提高相关性的鲁棒性以确保可见性图预测的准确性;2) 设计一个有监督的可见性预测模块以直接提升可见性图的质量。

创新点

本文的创新点主要包括以下三个方面:

  1. 基于极线信息的Transformer模块 (ELT)

    • 该模块包含自注意力交叉注意力两个核心组件。
    • 自注意力层:利用极线对应关系,通过沿极线聚合特征信息来同时增强参考图像和源图像的特征。
    • 交叉注意力层:针对参考图像的每个像素,利用其在源图像中的候选匹配特征(根据深度假设计算得到)来进一步强化参考图像特征,从而显著提升相关性的鲁棒性。
    • 与ET-MVSNet等方法仅增强源图像特征不同,ELT模块实现了对参考图像和源图像特征的定制化增强
  2. 有监督的可见性估计模块 (SVE)

    • 提出了一种从真实深度图中生成可见性图真值的方法,从而可以对预测的可见性图进行直接监督,而不是像之前工作那样依赖深度图的间接监督。
    • 该模块在多个尺度(阶段)上预测可见性图,并通过融合当前阶段的相关性、参考图像特征以及上一阶段的可见性图(上采样后)来迭代优化可见性图的精度。
  3. 整体框架的有效整合

    • 将ELT和SVE模块有效集成到一个由粗到细的MVS框架中。ELT增强了特征和相关性的鲁棒性,为SVE提供了更可靠的输入;SVE则基于这些鲁棒的相关性输出精确的可见性图,用于后续的代价体加权融合,最终提升了在挑战性区域的深度估计和重建完整性。

网络架构构成

image-20251208222306201

ETV-MVS是一个多阶段(4个尺度)的由粗到细框架,如图1所示。核心流程如下:

  1. 特征提取器:采用FPN作为主干网络,处理参考图像和N-1个源图像。在解码器部分,为每个参考-源图像对建立独立分支。
  2. ELT模块:仅在最粗阶段应用于特征增强。对于每个参考-源图像对,通过自注意力层增强双方特征,再通过交叉注意力层进一步增强参考特征。最终得到N-1组不同的、增强后的参考-源特征对。
  3. 相关性构建与SVE模块:对每组增强后的特征对计算分组相关性。同时,SVE模块基于这些相关性、参考特征以及上一阶段的可见性图(除最粗阶段外)预测当前阶段的可见性图。
  4. 代价体融合与正则化:利用预测的可见性图作为权重,对所有源图像的相关性进行加权融合,得到最终代价体。代价体经过3D CNN层进行正则化,得到深度假设的概率分布图。
  5. 深度图回归:根据深度假设的概率分布回归得到当前阶段的深度图。

特征提取实现

  • 骨干网络:使用FPN作为编码器-解码器主干。编码器共享,解码器包含N-1个独立分支,每个分支处理一个参考-源图像对。
  • 极线信息采样与自注意力:对于每个像素,沿其极线方向均匀采样2n_s+1个点(n_s为采样半径)。将采样的极线特征作为Key和Value,像素本身的特征作为Query,通过多头注意力机制聚合极线上的上下文信息,以增强该像素的特征。
  • 交叉注意力:对于参考图像的每个像素p,根据一组深度假设d_j,利用单应性变换计算出其在第i个源图像中对应的候选匹配特征的位置集合{p_{i,j}}。将这些候选匹配特征作为Key和Value,参考像素特征p作为Query,通过交叉注意力机制,使参考特征能聚合来自源图像中潜在匹配点的信息,从而增强其表达能力和匹配鲁棒性。

代价体构建

  1. 深度假设:在每个阶段k,在逐渐缩小的深度范围内均匀采样Z_k个深度假设{d_j}
  2. 坐标变换:对于参考特征图上的像素p,根据每个深度假设d_j,利用相机几何将其投影到第i个源视图上,得到对应坐标p_{i,j}
  3. 分组相关性计算:计算参考特征F_{r,i}^k(p)与经投影获取的源特征F_{s,i}^k(p_{i,j})之间的分组内积,得到初始相关性c_i(p, d_j)

    ci(p,dj)=Fr,ik(p),Fs,ik(pi,j)c_i(p, d_j) = \langle F_{r,i}^k(p), F_{s,i}^k(p_{i,j}) \rangle

代价体正则化

  • 加权融合形成代价体:利用SVE模块预测的可见性图V_{i,k}作为权重,对所有源图像的相关性进行加权平均,得到融合后的代价体C

    C(p,dj)=i=1N1Vi,k(p)ci(p,dj)i=1N1Vi,k(p)C(p, d_j) = \frac{\sum_{i=1}^{N-1} V_{i,k}(p) c_i(p, d_j)}{\sum_{i=1}^{N-1} V_{i,k}(p)}

  • 3D CNN正则化:融合后的代价体C经过一系列3D CNN层处理,进行正则化,输出每个像素、每个深度假设的概率P_k(p, d_j)

深度图生成

在每个阶段k,通过对深度假设的概率分布P_k(p, d_j)进行期望值计算(软回归),得到深度图D_k

Dk(p)=jdjPk(p,dj)D_k(p) = \sum_{j} d_j P_k(p, d_j)

损失函数

总损失由可见性图损失和深度概率图损失加权组成:

  1. 可见性图损失 (L_v):使用L_1损失,监督每个阶段、每个源图像对应的预测可见性图V_{i,k}与真值V_{i,k}^{GT}

    Lv=k=03i=1N1L1(Vi,kGT,Vi,k)L_v = \sum_{k=0}^{3} \sum_{i=1}^{N-1} L_1(V_{i,k}^{GT}, V_{i,k})

  2. 深度概率图损失 (L_p):使用交叉熵损失,监督每个阶段预测的深度概率分布P_k与真实深度转换成的one-hot分布P_k^{GT}

    Lp=k=03PkGTlog(Pk)L_p = \sum_{k=0}^{3} -P_k^{GT} \log(P_k)

  3. 总损失

    Ltotal=λvLv+λpLpL_{total} = \lambda_v L_v + \lambda_p L_p

    其中,权重\lambda_v = 0.1\lambda_p = 1

测试数据集

方法在以下三个主流MVS数据集上进行了评估:

  1. DTU数据集:室内扫描数据集,用于定量评估精度、完整性和整体性能。
  2. BlendedMVS数据集:大规模合成数据集,用于模型微调以提升泛化能力。
  3. Tanks & Temples数据集:大规模真实场景数据集,包含Intermediate和Advanced两个子集,用于评估在复杂、大规模场景下的性能。

消融实验

消融实验在DTU数据集上进行,主要验证了各个组件的有效性:

  1. ELT与SVE模块的整体贡献:测试了单独使用自注意力、自注意力+交叉注意力、单独使用SVE以及组合使用的效果,证明了两个模块均对提升完整性有显著贡献。
  2. ELT模块层数分析:分别分析了自注意力层数(1,2,3,4)和交叉注意力层数(0,1,2)对性能的影响,发现随着层数增加性能提升,但收益递减。
  3. Transformer方法对比:将本文的ELT模块与TransMVSNet中的FMT和ET-MVSNet中的ET模块进行替换对比,证明了ELT在重建性能上的优越性,同时也指出了其计算开销相对较高的问题。
  4. SVE模块组件分析:分析了SVE模块中不同输入组件(相关性、参考特征、上一阶段可见性图)以及可见性监督的作用。结果表明,可见性监督是提升SVE模块性能的关键因素,而加入参考特征和上一阶段可见性图能有效降低可见性图的平均绝对误差(MAE)。

image-20251208222326574

image-20251208222336475

image-20251208222345920