PatchMVSNet

基本信息

PatchMVSNet是一种无监督多视图立体匹配方法，旨在解决弱纹理表面重建中的匹配模糊问题。传统无监督方法依赖像素级光度一致性，易受光照和弱纹理影响。本文提出两种鲁棒损失函数：

该方法在DTU、Tanks and Temples和ETH3D等基准测试中达到先进水平，尤其在弱纹理场景下重建完整性显著提升。

PatchMVSNet 作为无监督（自监督）MVS 方法，核心逻辑是不依赖深度真值，而是通过多视图图像的几何约束、光度一致性、特征一致性构建监督信号，实现深度估计与 3D 重建。

现有无监督 MVS 方法存在两大核心缺陷，推动作者开展研究：

匹配歧义严重：依赖像素级光度一致性，感受野小，在弱纹理表面（像素强度变化微弱）和光照变化场景下，难以区分正确匹配，导致重建不完整；
几何约束不完善：现有几何一致性损失未充分考虑遮挡问题，跨视图深度校验时易引入错误匹配，进一步加剧歧义；
缺乏全局上下文：像素级匹配未利用全局信息，对光照变化和表面反射敏感。

作者旨在通过扩展感受野（patch-wise 策略）、优化几何约束（考虑遮挡）、引入高级特征（抗光照干扰），解决上述问题，实现弱纹理场景的高质量无监督重建。

摒弃像素级匹配，采用中心像素的 3×3 补丁（Ω§）计算光度一致性，扩大感受野，融入局部上下文信息，降低弱纹理区域的匹配歧义；
多尺度补丁合并策略：各阶段保持补丁尺寸一致，相邻阶段补丁通过双线性插值合并，低分辨率阶段获取更多上下文，高分辨率阶段保留细节，同时满足 “补丁内深度一致” 假设。

Iref−I^ref⇄src(i)

Fref−F^src(i)⊙Mref

进一步降低光照和纹理变化带来的匹配干扰。

PatchMVSNet 基于多尺度架构（CascadeMVSNet）构建，核心分为四大模块，流程为 “特征提取→代价体处理→深度回归→损失约束”：

特征提取模块：CNN 提取多尺度图像特征，预训练 VGG-16 提取高级特征；
最佳源图像选择模块：筛选遮挡最少的源图像，构建几何一致性校验对；
代价体处理模块：平面扫描构建代价体，3D U-Net 正则化，多尺度补丁合并；
深度回归与损失约束模块：深度期望计算，结合 patch-wise 光度、几何、高级特征等损失优化。

输入为 1 张参考图 + N 张源图（含内参 / 外参），输出参考图的全分辨率深度图，经融合生成 3D 点云。

基础多尺度特征：参考图与源图经 CNN 提取 3 个尺度特征（对应网络三阶段），分辨率逐步提升，为代价体构建提供多尺度基础；在多尺度架构中，使用特征金字塔网络（FPN）提取多尺度特征；
高级特征提取：采用预训练 VGG-16，分别从第 8 层和第 15 层提取 128 通道和 256 通道的高级特征，该特征具有全局上下文信息，抗光照和纹理变化能力强；
特征适配：基础特征用于代价体构建，高级特征用于对齐一致性损失计算，两者通过 warping 投影到同一坐标系统一处理。