基本信息

项目	内容
论文标题	PatchMatch-RL: Deep MVS with Pixelwise Depth, Normal, and Visibility
作者	Jae Yong Lee1 Joseph DeGol2 Chuhang Zou* 3 Derek Hoiem
作者单位	伊利诺伊大学厄巴纳-香槟分校University of Illinois at Urbana-Champaign Microsoft Amazon Go
时间
发表会议/期刊

方法概览

特点	文章性质
输入	标定之后的多视角图像
输出	场景的点云图，每个视角的法线和深度图
所属领域	MVS

背景

创新点

网络架构

摘要

最近基于学习的多视图立体（MVS）方法在密集相机和小深度范围内（其实他也找到了原因，因为必须相机多方面重叠才有好的结果）表现出优异的性能。然而，非基于学习的方法仍然在具有较大深度范围和较稀疏的宽基线视图的场景优于学习的方法，部分原因是它们对深度、法线和可见性的像素估计进行了 PatchMatch 优化。

在本文中，我们提出了一种基于端到端可训练 PatchMatch 的 MVS 方法，该方法将可训练成本和正则化的优势与像素估计相结合。为了克服涉及迭代采样和硬决策的不可微分 PatchMatch 优化的挑战，我们使用强化学习来最大限度地降低预期光度成本。我们通过使用扩张的dilated patch kernels来整合正态估计，并提出了一种递归成本正则化，该正则化超越了正面平面扫描算法，应用于我们的像素深度/正态估计。我们在广泛使用的 MVS 基准测试 ETH3D 和 Tanks and Temples （TnT）上评估了我们的方法。在 ETH3D 上我们的方法优于其他最近的基于学习的方法，并且在高级 TnT 上的表现相当。

引言

最近基于学习的 MVS 方法倾向于使用正面平面扫描，根据相同的图像评估每个像素的同一组深度候选。基于学习的方法的可训练光度分数trainable photometric scores 和成本量正则化导致了在密集相机和小深度范围场景性能好
但基于像素的非学习方法在具有较大深度范围和倾斜表面的场景中表现优于在较稀疏的宽基线视图中观察到的场景，如 ETH3D 基准测试[28]所证明的那样。
我们的论文旨在将像素深度、法线和视图估计值整合到一个端到端的可训练系统中，并具有两种方法的优势：
1. Pixelwise depth and normal prediction efficiently models scenes with large depth ranges and slanted surfaces.按像素深度和法线预测，对具有大深度范围和倾斜表面的场景进行建模。
2. Pixelwise view selection improves robustness to occlusion and enables reconstruction from sparser images.像素视图选择提高了遮挡的鲁棒性
3. Learned photometric cost functions improve correspondence robustness学习到的光度成本函数提高了对应鲁棒性。
4. • Learned regularization and contextual inference enable completion of textureless and glossy surfaces学习的正则化和上下文推理可以完成无纹理和有光泽的表面。
一个挑战是 PatchMatch 优化和像素视图选择涉及迭代采样和不可微分的硬决策。我们提出了一种强化学习方法，以最大限度地降低预期的光度成本，并最大限度地提高折扣奖励，以达到良好的最终解决方案minimize expected photometric cost and maximize discounted rewards for reaching a good final solution。我们的技术还可用于实现其他 PatchMatch 应用程序（例如 [3， 14 ， 21]）的学习，尽管我们只关注 MVS。估计像素的 3D 法线也具有挑战性，因为**卷积特征往往是平滑的，因此相邻单元几乎没有添加新信息，并且逐块光度成本会占用大量内存。我们发现，在较浅的特征通道和扩张的补丁核下，我们可以有效地估计像素法线。**第三个挑战是如何执行正则化或全局推理。每个像素都有自己的深度/法线估计值，因此基于成本体积的正则化不适用。我们提出了一种循环成本正则化，通过消息传递来更新隐藏状态，该消息传递考虑了像素之间的深度/正常相似性。
总之，我们的主要贡献是一种基于端到端可训练 PatchMatch 的 MVS 方法，该方法将可训练成本和正则化的优势与像素估计相结合，有多项创新
1. 深度/法线正则化，适用于正面平面扫描算法之外;例如，到我们的像素深度/法线估计值。
2. 在基于学习的 MVS 中使用正态估计值，通过可训练的 PatchMatch 优化和 CNN 补丁功能实现。
3. 强化学习方法，用于在基于 PatchMatch 采样的优化中进行端到端训练。