Adaptive Feature Enhanced Multi-View Stereo With Epipolar Line Information Aggregation

基本信息

项目	内容
论文标题	Adaptive Feature Enhanced Multi-View Stereo With Epipolar Line Information Aggregation
作者	Shaoqian Wang, Bo Li, Jian Yang, Yuchao Dai
作者单位	西北工业大学 (School of Electronics and Information, Northwestern Polytechnical University)
时间	2024
发表会议/期刊	IEEE Robotics and Automation Letters (LRA), Vol. 9, No. 11, November 2024

摘要精简

针对基于学习的多视角立体视觉（MVS）方法在处理不同视角间的透视变换上存在的困难，以及现有方法普遍采用的“一对多”（一个参考图像特征匹配多个源图像特征）策略限制了参考图像特征增强的多样性问题，本文提出了一种新颖的极线信息聚合（EIA）方法。该方法包含一个基于极线信息的特征增强层（EIA-F）和一个相关性增强模块（EIA-C）。EIA-F采用“多对多”策略，利用多样化的极线信息自适应地增强参考-源特征对。EIA-C则利用极线信息提升匹配相似度的鲁棒性。实验表明，该方法在多个MVS基准测试上达到了最先进的性能，尤其在重建完整性方面有显著提升。

引言与出发点

在MVS任务中，不同视角间的透视变换（旋转和平移）会导致同一物体区域在不同图像上的投影存在显著差异，进而影响图像特征间匹配相似度（相关性）的可靠性，最终制约重建性能。现有基于学习的方法大多采用“一对多”策略，即用一个固定的参考图像特征去匹配多个源图像特征来计算相关性。这种策略使得参考图像特征无法根据不同的源图像和对应的极线约束进行自适应的、多样化的增强，从而限制了模型应对投影差异的能力。本文旨在通过一种新的“多对多”极线信息聚合策略来解决上述问题。

创新点

本文的核心创新点主要包括以下三个方面：

“多对多”特征增强网络层 (EIA-F)：提出一种新的网络层，采用“多对多”策略。该方法为每个参考-源图像对分别进行沿极线的邻域采样，并利用3D CNN聚合这些极线信息，从而为每个特征对自适应地同时增强参考特征和源特征。这突破了传统“一对多”策略只能固定参考特征或仅增强源特征的局限。
基于极线信息的相关性增强模块 (EIA-C)：提出一个新的模块，在构建相关性（代价）后，进一步利用参考特征的极线采样信息来聚合和增强这些相关性，提高了匹配过程的鲁棒性。
“多对多”策略的整体框架：将上述两个组件整合到一个多阶段框架中，构建了一个“多对多”的特征提取器。该提取器为每一对参考-源图像生成独立的、经过极线信息增强的特征，使得最终用于深度估计的特征表示更加丰富和鲁棒。

网络架构构成

整体网络是一个多阶段（4尺度）的由粗到细框架，如图3所示。其核心流程如下：

“多对多”特征提取器：以FPN为骨干，但在解码器部分为每个参考-源图像对设立独立分支。
EIA-F层：应用于前两个较粗的阶段，在每个分支中对参考和源特征进行沿极线的信息聚合与增强。
相关性构建：对每个增强后的参考-源特征对，通过单应性变换和分组相关计算构建初始相关性。
EIA-C模块：对每个初始相关性，利用对应的参考极线采样信息进行增强。
代价体融合与正则化：将所有增强后的相关性加权融合为代价体，经过正则化模块（文中未详述具体结构，应为3D CNN或GRU等）处理。
深度图估计：从正则化后的概率体积中回归得到深度图。

特征提取实现

骨干网络：采用特征金字塔网络（FPN）作为编码器-解码器主干。
“多对多”实现：编码器部分共享，用于处理所有输入图像。解码器部分则分成 $N-1$ 个独立分支，每个分支对应一个参考-源图像对 $[I_0, I_i]$ 。
极线信息采样：对于每个特征对中的每个像素点，沿其对应的极线方向均匀采样 $S_k-1$ 个邻居点（ $S_0=7, S_1=5$ ），形成坐标集合 $E_{i,k}^r$ 和 $E_{i,k}^s$ 。
EIA-F层操作：根据采样坐标 $E_{i,k}^r$ 和 $E_{i,k}^s$ 从特征图中提取出沿极线排列的特征，构成特征体 $F_n \in \mathbb{R}^{H\times W\times S_k \times C}$ 。随后使用两个3D卷积层专门沿极线方向（即 $S_k$ 维度）进行卷积聚合： $F‘ = \text{Conv3d}(F_n), \quad \text{Kernel}=(3,1,1), \quad \text{Pad}=(1,0,0)$ $F_e = \text{Conv3d}(F‘)， \quad \text{Kernel}=(S_k,1,1), \quad \text{Pad}=(0,0,0)$ 输出 $F_e \in \mathbb{R}^{H\times W \times C}$ 即为增强后的特征图。

代价体构建

深度假设：在每个阶段 $k$ ，在逐渐缩小的深度范围内均匀采样 $D_k$ 个深度假设 $\{d_j^k\}$ 。
坐标变换与特征提取：对于参考特征图上的每个点 $p_r$ ，根据每个深度假设 $d_j^k$ ，利用相机几何将其投影到第 $i$ 个源视图上，得到对应点坐标 $p_{i,j}$ 。
分组相关性计算：将参考特征 $F_{i,k}^r$ 和经投影获取的源特征 $F_{i,k}^s(p_{i,j})$ 沿通道维度分成 $G$ 组，分别计算组内相似度，并拼接成初始相关性 $\mathbf{C}_i$ ： $\mathbf{C}_i(p_r, d_j^k) = \langle F_{i,k}^r(p_r), F_{i,k}^s(p_{i,j}) \rangle_g$

代价体正则化

EIA-C模块增强：在得到初始相关性 $\mathbf{C}_i$ 后，利用参考特征的极线采样信息 $E_{i,k}^r$ 对其进行增强。该模块提取沿参考极线的相关性信息，并通过3D CNN进行融合，再与原始相关性跳跃连接，输出增强后的相关性。
代价体融合：将所有 $N-1$ 个增强后的相关性 $\mathbf{C}_i$ 根据自适应计算的权重 $\boldsymbol{w}_i$ 进行加权融合，形成最终的代价体 $\mathbf{C}_v$ ： $\mathbf{C}_v(p_r, d_j^k) = \frac{\sum_{i=1}^{N-1} \boldsymbol{w}_i(p_r, d_j^k)\mathbf{C}_i(p_r, d_j^k)}{\sum_{i=1}^{N-1} \boldsymbol{w}_i(p_r, d_j^k)}$
正则化与概率化：融合后的代价体 $\mathbf{C}_v$ 经过一个正则化网络（文中未明确结构，推断为3D CNN或循环神经网络）处理，输出每个像素、每个深度假设的概率 $P_k(p_r, d_j^k)$ 。

深度图生成

在每个阶段 $k$ ，通过回归最终的概率分布 $P_k$ 来估计深度图 $\mathbf{D}_k$ 。具体为对每个像素 $p_r$ ，取使其概率最大的深度假设作为深度值：

\mathbf{D}_k(p_r) = \arg \max_{d_j^k} (P_k(p_r, d_j^k))

损失函数

采用多阶段监督，使用所有有效像素的交叉熵损失。总损失为各阶段损失之和：

\text{Loss} = \sum_{k=0}^{3} \sum_{p_r \in \text{Valid}} -P_k^{gt}(p_r) \log(P_k(p_r))

其中 $P_k^{gt}$ 是真实深度的one-hot形式概率分布。

测试数据集

方法在以下三个主流MVS数据集上进行了评估：

DTU数据集：室内扫描数据集，用于定量评估精度和完整性。
BlendedMVS数据集：大规模合成数据集，用于模型微调。
Tanks & Temples数据集：大规模真实场景数据集，包含Intermediate和Advanced两个子集，用于评估在复杂场景下的泛化能力。

消融实验

消融实验在DTU数据集上进行，主要验证了所提各个组件的有效性：

整体EIA策略：验证同时使用EIA-F和EIA-C的效果。
EIA-F模块的单独作用：分别测试仅用EIA-F增强参考特征（“Ref EIA-F”）和仅增强源特征（“Src EIA-F”）的情况。其中“Src EIA-F”模拟了传统“一对多”策略。
“多对多”策略：通过对比证明了所提“多对多”策略相对于“一对多”策略在提升重建完整性方面的优势。