GeoMVSNet

基本信息

项目	内容
论文标题	GeoMVSNet
作者	Zhe Zhang, Rui Peng, Yuxi Hu, Ronggang Wang
作者单位	北京大学电子与计算机工程学院
时间	2023
发表会议/期刊	CVPR2023

方法概览

特点	文章性质
输入	多视角
输出	参考视角深度图
所属领域	MVS

1. 摘要精简

GeoMVSNet 提出一种几何感知的多视图立体匹配方法，通过显式地利用粗阶段中蕴含的几何信息来提升精细阶段的深度估计精度。现有级联多视图立体（MVS）方法虽能通过缩小假设范围高效估计高分辨率深度图，但忽略了粗阶段蕴含的关键几何信息，导致代价匹配脆弱且重建结果次优。本文提出 GeoMVSNet，一种具有几何感知能力的模型，显式整合粗阶段的几何线索以实现精细深度估计。具体而言，设计双分支几何融合网络从粗估计中提取几何先验，增强细阶段的结构特征提取；将编码深度分布属性的粗概率体嵌入轻量级正则网络，强化深度方向几何直觉；采用频域滤波缓解高频区域负面影响，结合课程学习策略逐步提升模型的几何整合能力；基于高斯混合模型（GMM）假设提出深度分布相似性损失，增强全场景几何感知。在 DTU 和 Tanks and Temples（T&T）数据集上的大量实验表明，GeoMVSNet 取得了最先进（SOTA）结果，且在 T&T-Advanced 集排名第一。

主要贡献包括：

设计了两分支几何融合网络，从粗深度图中提取几何先验；
将粗概率体积嵌入轻量级正则化网络；
引入频域滤波和课程学习策略；
提出基于高斯混合模型（GMM）的深度分布相似性损失。

2. 引言与动机

现有的级联 MVS 方法虽然能通过逐级缩小深度假设范围来高效估计高分辨率深度图，但忽略了粗阶段中蕴含的几何信息，导致代价匹配脆弱、重建结果次优。此外，现有方法大多仅考虑像素级深度属性，未充分利用 MVS 场景中固有的几何结构。

GeoMVSNet 的出发点是显式地利用粗阶段的几何结构来辅助精细阶段的深度估计，从而提升模型的几何感知能力。

3. 创新点总结

3.1 几何感知的代价匹配

几何先验引导的特征融合：将粗深度图作为几何先验，通过两分支网络与 FPN 特征融合，增强结构特征。
概率体积几何嵌入：将粗阶段的概率体积作为 3D 位置图嵌入正则化网络，增强深度感知。

3.2 频域几何增强

使用频域滤波（低通滤波器）通过频域滤波（DFT + 低通滤波 + iDFT）去除粗深度图中的高频噪声，减轻网络学习负担。
结合课程学习策略，通过调整频域滤波器的裁剪核比率，从易到难逐步向网络引入几何线索，优化几何信息的学习模式。

3.3 全场景深度分布建模

构建基于高斯混合模型（GMM）的全场景深度分布建模与损失函数：假设深度值服从 GMM 分布，结合 PauTa 准则刻画深度分布的有效区间，避免天空等极端深度区域的负面影响；基于该模型设计深度分布相似性损失，通过 KL 散度度量估计深度与真值的分布相似性，强化全场景几何感知监督。
实现方式：通过调节频域滤波器的截断核比例 $\rho$ $ρ$ 来控制几何信息的引入难度：
- 训练分布定义为： $Q^{\ell}(d^{\ell}) \propto W^{\ell}(d^{\ell}) \mathcal{N}(d^{\ell})$
- 其中 $W^{\ell}$ 是单调递增的权重，通过调节 $\rho$ 来实现
- 在粗到细方案的最后一个阶段保留完整的几何线索（ $\rho=1$ ）

4. 网络架构

整体流程如下：

提取多视图图像特征；
构建级联代价体积；
使用轻量级正则化网络处理代价体积；
生成概率体积并估计深度图。

关键模块包括：

几何融合网络
概率体积嵌入模块
频域滤波模块
GMM 深度分布建模

5. 特征提取

使用 FPN 提取多尺度图像特征；
在精细阶段，引入几何先验引导的特征融合，将粗深度图与当前阶段图像特征融合，增强结构感知能力。

6. 代价体构建

通过单应性变换将多视图特征投影到参考相机视锥体中；
使用组相关构建代价体积 $C \in \mathbb{R}^{G \times M \times H \times W}$ ，其中 $G$ 为组数， $M$ 为深度假设数。

7. 代价体正则化

使用轻量级 U-Net 结构进行正则化；使用 2D 卷积替代部分 3D 卷积，减少计算量。
将粗阶段的概率体积 $P^\ell$ 作为 3D 位置图嵌入正则化网络，增强深度方向的几何感知；

8. 深度图生成

对正则化后的概率体积 $P$ 沿深度方向取 argmax，得到每个像素的深度估计；
使用软 argmax 或期望值进行亚像素细化。

9. 损失函数

总损失为像素级分类损失与深度分布相似性损失的加权和：

Loss = \sum_{\ell=0}^{L} \left( \lambda_1^\ell \cdot Loss_{pw} + \lambda_2^\ell \cdot Loss_{dis} \right)

$Loss_{pw}$ ：交叉熵损失，用于像素级深度分类；
$Loss_{dis}$ ：KL 散度损失，用于衡量估计深度与真实深度分布的相似性，基于 GMM 假设，用 KL 散度度量滤波后的深度估计与真值深度的样本分布相似性；将每个场景的深度空间划分为M′=48个离散区间，计算分布相似性以实现全场景几何感知监督。

10. 测试数据集

DTU：室内数据集，124 个场景，49 视图/场景；
Tanks and Temples：真实场景，包含 Intermediate 和 Advanced 子集；
BlendedMVS：大规模合成数据集，用于训练和验证。

11. 消融实验

消融实验验证了以下组件的有效性：

组件	作用
几何融合网络	提升结构特征表达能力
概率体积嵌入	增强深度感知
频域滤波	抑制高频噪声
课程学习	逐步引入几何信息
深度分布损失	增强全场景几何感知

所有组件的组合取得了最佳性能，尤其在完整性和整体指标上提升显著。

总结

GeoMVSNet 通过显式地利用粗阶段的几何信息，结合频域滤波、课程学习和深度分布建模，显著提升了 MVS 的几何感知能力。在多个数据集上取得了 SOTA 性能，尤其在复杂场景下表现出色。