基本信息

项目 内容
论文标题 PatchMatch-RL: Deep MVS with Pixelwise Depth, Normal, and Visibility
作者 Jae Yong Lee1 Joseph DeGol2 Chuhang Zou* 3 Derek Hoiem
作者单位 伊利诺伊大学厄巴纳-香槟分校University of Illinois at Urbana-Champaign Microsoft Amazon Go
时间
发表会议/期刊

方法概览

特点 文章性质
输入 标定之后的多视角图像
输出 场景的点云图,每个视角的法线和深度图
所属领域 MVS

背景

创新点

网络架构

摘要

最近基于学习的多视图立体(MVS)方法在密集相机和小深度范围内(其实他也找到了原因,因为必须相机多方面重叠才有好的结果)表现出优异的性能。然而,非基于学习的方法仍然在具有较大深度范围和较稀疏的宽基线视图的场景优于学习的方法,部分原因是它们对深度、法线和可见性的像素估计进行了 PatchMatch 优化。

在本文中,我们提出了一种基于端到端可训练 PatchMatch 的 MVS 方法,该方法将可训练成本和正则化的优势与像素估计相结合。为了克服涉及迭代采样和硬决策的不可微分 PatchMatch 优化的挑战,我们使用强化学习来最大限度地降低预期光度成本。我们通过使用扩张的dilated patch kernels来整合正态估计,并提出了一种递归成本正则化,该正则化超越了正面平面扫描算法,应用于我们的像素深度/正态估计。我们在广泛使用的 MVS 基准测试 ETH3D 和 Tanks and Temples (TnT) 上评估了我们的方法。在 ETH3D 上我们的方法优于其他最近的基于学习的方法,并且在高级 TnT 上的表现相当。

引言

  1. 最近基于学习的 MVS 方法倾向于使用正面平面扫描,根据相同的图像评估每个像素的同一组深度候选。基于学习的方法的可训练光度分数trainable photometric scores 和成本量正则化导致了在密集相机和小深度范围场景性能好

  2. 但基于像素的非学习方法在具有较大深度范围和倾斜表面的场景中表现优于在较稀疏的宽基线视图中观察到的场景,如 ETH3D 基准测试[28]所证明的那样。

  3. 我们的论文旨在将像素深度、法线和视图估计值整合到一个端到端的可训练系统中,并具有两种方法的优势:

    1. Pixelwise depth and normal prediction efficiently models scenes with large depth ranges and slanted surfaces.按像素深度和法线预测,对具有大深度范围和倾斜表面的场景进行建模。
    2. Pixelwise view selection improves robustness to occlusion and enables reconstruction from sparser images.像素视图选择提高了遮挡的鲁棒性
    3. Learned photometric cost functions improve correspondence robustness学习到的光度成本函数提高了对应鲁棒性。
    4. • Learned regularization and contextual inference enable completion of textureless and glossy surfaces学习的正则化和上下文推理可以完成无纹理和有光泽的表面。
  4. 一个挑战是 PatchMatch 优化和像素视图选择涉及迭代采样和不可微分的硬决策。我们提出了一种强化学习方法,以最大限度地降低预期的光度成本,并最大限度地提高折扣奖励,以达到良好的最终解决方案minimize expected photometric cost and maximize discounted rewards for reaching a good final solution。我们的技术还可用于实现其他 PatchMatch 应用程序(例如 [3, 14 , 21])的学习,尽管我们只关注 MVS。估计像素的 3D 法线也具有挑战性,因为**卷积特征往往是平滑的,因此相邻单元几乎没有添加新信息,并且逐块光度成本会占用大量内存。我们发现,在较浅的特征通道和扩张的补丁核下,我们可以有效地估计像素法线。**第三个挑战是如何执行正则化或全局推理。每个像素都有自己的深度/法线估计值,因此基于成本体积的正则化不适用。我们提出了一种循环成本正则化,通过消息传递来更新隐藏状态,该消息传递考虑了像素之间的深度/正常相似性。

  5. 总之,我们的主要贡献是一种基于端到端可训练 PatchMatch 的 MVS 方法,该方法将可训练成本和正则化的优势与像素估计相结合,有多项创新

    1. 深度/法线正则化,适用于正面平面扫描算法之外;例如,到我们的像素深度/法线估计值。
    2. 在基于学习的 MVS 中使用正态估计值,通过可训练的 PatchMatch 优化和 CNN 补丁功能实现。
    3. 强化学习方法,用于在基于 PatchMatch 采样的优化中进行端到端训练。

相关工作

  1. 为什么要使用倾斜平面假设:在宽基线 MVS 设置中,(1) 深度图确实如此在不同的视图中不对齐,使一致性检查和融合更加困难;(2)斜面深度不恒定,强度斑块的匹配性下降;(3)深度值的范围可能很大,因此需要较大的深度步骤才能可行地评估整个范围。此外,遮挡和部分重叠的图像在评估光度一致性时需要更加小心。
  2. PatchMatch非常适合深度/法线优化,因为它采用了假设-检验-传播框架,当标签具有较大范围但在局部邻域中近似分段恒定时,该框架非常适合高效推理。但它通常无法重建光度一致性没有信息的光滑或有光泽的表面
  3. Duggal 等[ 8 ]提出了一种可微分的 PatchMatch,它优化了 softmax 加权样本,而不是 argmax,并使用它来修剪深度搜索空间以初始化深度标记。我们使用他们的单热滤波器组的想法来执行传播,但使用基于期望的损失,该损失在训练期间锐化到 argmax 以实现 argmax 推理。
  4. 最近的patchmatchNet [ 30 ] 最大限度地减少了每次迭代损失的总和,并采用了可见性的一次性预测(软视图选择)。我们使用强化学习来训练视图选择,并最大限度地减少最终深度/法线估计的损失。据我们所知,我们的工作是第一个提出端到端可训练公式的,该公式将像素深度/法线/视图估计和 PatchMatch 优化的优势与深度网络学习的光度一致性和细化相结合。

方法

image-20251011153301112
这是一个从粗到细的网络,在最粗略的水平上估计值被随机初始化,然后通过一系列 PatchMatch 迭代进行细化,这些迭代包括按像素视图选择、候选者传播、正则化成本计算和候选者更新。然后对生成的估计值进行上采样并进一步细化,一直持续到最精细的层,之后所有深度估计值都融合到 3D 点云中。

初始化

使用特征金字塔网络(FPN)[20]提取 CNN 特征作为参考图像和源图像。为了提高内存效率,输出通道的数量因尺度而异,在更高分辨率的特征图中,特征通道较浅。

image-20251011162515587

特征相关性 Feature Correlation

image-20251011162706213

逐像素视角选择Pixel-wise View Selection

为每个源图像计算尺度、入射角度和三角化角度差异等几何先验,进而为每个ωp计算逐像素可见性估计。然后,我们基于每个像素的Vp概率分布进行N视角采样,以获得源图像集Vp,并使用这些可见性概率进一步计算跨视角的特征相关性的加权和。

候选传播Candidate Propagation

image-20251011163009977

候选正则化成本与更新Candidate Regularized Cost and Update

image-20251011163108326

image-20251011163232024

从粗到精的PatchMatch与融合Coarse-to-Fine PatchMatch and Fusion

image-20251011163123548