DVP-MVSNet

基本信息

项目	内容
论文标题	Synergize Depth-Edge and Visibility Prior for Multi-View Stereo
作者	Zhenlong Yuan, Jinguo Luo, Fei Shen, Zhaoxin Li, Cong Liu, Tianlu Mao*, Zhaoqi Wang
作者单位	中国科学院计算技术研究所（Institute of Computing Technology, Chinese Academy of Sciences）
时间	2025
发表会议/期刊	AAAI

方法概览

特点	文章性质
输入	标定之后的多视角图像
输出	场景的点云图，每个视角的法线和深度图
所属领域	MVS

DVP-MVS 论文笔记

基本信息

方法名称：DVP-MVS
作者：Zhenlong Yuan, Jinguo Luo, Fei Shen, Zhaoxin Li, Cong Liu, Tianlu Mao, Zhaoqi Wang
第一单位：中国科学院计算技术研究所
年份：2024
发表会议/期刊：arXiv预印本

1. 摘要精简

基于补丁变形的多视图立体匹配（MVS）方法虽能通过可变形感知重建无纹理区域，但存在边缘跳过和可见性遮挡导致的变形不稳定问题，易引发估计偏差。为此，提出 DVP-MVS 方法，**创新融合深度 - 边缘对齐先验与跨视图先验，**实现鲁棒且感知可见性的补丁变形。具体而言，利用 Depth Anything V2 和 Roberts 算子分别初始化粗深度图和边缘图，通过侵蚀 - 膨胀策略对齐二者以生成细粒度同质边界；将视图选择权重重构为可见性图，经跨视图深度重投影恢复可见区域作为跨视图先验；引入聚合可见半球法线和极线局部投影深度差异，结合多视图几何一致性改进传播与细化过程。在 ETH3D 和 Tanks & Temples 基准测试中，该方法取得了最先进（SOTA）性能，具备优异的鲁棒性和泛化能力。主要贡献包括：

使用Depth Anything V2和Roberts算子分别初始化深度和边缘图，通过腐蚀-膨胀策略对齐生成细粒度同质边界
重构视图选择权重为可见性图，通过跨视图深度重投影恢复可见区域
引入聚合可见半球法线和基于极线的局部投影深度差异来改进传播和细化过程

在ETH3D和Tanks & Temples基准测试上达到SOTA性能，具有优秀的鲁棒性和泛化能力。

2. 引言与动机

MVS 作为计算机视觉核心任务，需通过多视角重叠图像实现场景 / 物体的密集几何表征，广泛应用于场景重建、图像去噪等领域。现有方法分为学习型和传统型：

学习型 MVS 依赖大规模训练数据集，泛化能力较弱；
传统型 MVS 基于 PatchMatch 算法，其中平面化方法受限于连通区域大小，平面化过程易偏差；补丁变形方法虽能扩展感受野以重建无纹理区域，但仅关注可靠像素搜索策略，忽略了深度 - 边缘对齐这一变形稳定性关键约束，导致阴影或遮挡引发的边缘跳过问题，破坏深度连续性并造成匹配失真；同时，视角变化带来的可见性差异与遮挡也会导致补丁变形不稳定。

因此，本文旨在通过融合深度 - 边缘对齐先验、跨视图先验及多视图几何一致性，解决传统补丁变形方法的边缘跳过和可见性遮挡问题，提升 MVS 重建的准确性和鲁棒性。

3. 创新点总结

3.1 深度-边缘对齐先验

深度与边缘信息对齐：使用Depth Anything V2初始化深度图，Roberts算子提取边缘图，通过腐蚀-膨胀策略对齐生成细粒度同质边界，保障补丁在深度连续区域内稳定变形，避免边缘跳过。
区域级腐蚀-膨胀策略：
- 腐蚀阶段：当子区域平面相似度低且内点比率高时分割区域 $R_k \rightarrow \{R_i,R_j\}\,,\text{if }\text{sim}(\pi_i,\pi_j) \leq \sigma\text{ s.t. }\frac{r_i+r_j}{2r_k} \geq \gamma$
- 膨胀阶段：当区域平面相似度高且可靠时合并区域 $\{R_u,R_v\} \rightarrow R_w,\text{ if }\text{sim}(\pi_u,\pi_v) \geq \sigma\text{ s.t. }r_u,r_v \geq \kappa$
像素级过滤：确保像素属于其相邻区域的估计平面 $p \in \mathcal{E} \rightarrow p \in R_p,\text{if }\frac{|\mathbf{n}_k \cdot p+d_k|}{|\mathbf{n}_k|} \leq \delta\text{ s.t. }r_k \geq \kappa$

3.2 跨视图先验

可见性图恢复：将视图选择权重 $w_{ij}(p)$ 重构为可见性图，通过跨视图深度重投影 $e(p)$ 进行后验证来恢复原始可见区域
可见性感知块变形：在深度-边缘先验引导的基础上，进一步根据可见性筛选锚点 $S^{\prime\prime}_{ij}=\{s_i \in S^{\prime} \mid s_i \in R_p,w_{ij}(p)>0\}$

3.3 几何驱动的传播和细化

法线聚合：利用恢复的可见性图聚合多视图法线，约束法线在可见范围内
深度聚合：通过逆投影和多视图极线上固定长度采样的聚合来微调深度区间，确保映射像素在大多数可见源图像中经历显著位移

4. 网络架构

采用 Depth Anything V2（零样本泛化能力强的单目深度估计模型）与 Roberts 算子结合，同时获取全局深度信息和局部边缘信息，为同质边界生成奠定基础；
设计区域级侵蚀 - 膨胀策略和像素级过滤，实现深度与边缘图的精准对齐，解决固定阈值边缘提取在不同深度区域的适应性问题；
通过迭代更新补丁变形与可见性权重，形成闭环优化，进一步提升匹配代价计算的准确性。

DVP-MVS基于传统的PatchMatch MVS框架，主要改进组件包括：

深度-边缘对齐先验模块：生成同质边界指导块变形
跨视图先验模块：恢复可见性图并实现可见性感知变形
几何驱动传播细化模块：利用多视图几何一致性改进假设生成

整体流程采用迭代优化策略，通过多次迭代获得最终深度图。

先验生成：
- 深度 - 边缘对齐先验：用 Depth Anything V2 生成粗深度图，Roberts 算子提取粗边缘图并得到分散区域，经侵蚀 - 膨胀策略和像素过滤生成细粒度同质边界。
- 跨视图先验：重构 ACMMP 的视图选择权重为初始可见性图，通过跨视图深度重投影后验证恢复无纹理区域可见性，得到最终可见性图。
可见性感知补丁变形：基于深度 - 边缘对齐先验筛选锚点集合，再结合跨视图先验过滤不可见锚点，更新补丁变形的锚点集合。
几何驱动的传播与细化：传播阶段通过聚合可见半球法线约束法线范围；细化阶段通过极线局部投影深度差异生成自适应深度区间，约束深度搜索范围。
迭代优化：经多轮传播与细化，计算最小匹配代价对应的假设，输出参考图像的深度图。

5. 特征提取

DVP-MVS 为传统非学习型方法，无专门的深度特征提取网络，特征提取聚焦于深度和边缘信息的获取与对齐：

深度特征：采用 Depth Anything V2 模型处理输入图像，获取全局层面的单目深度信息，为同质区域划分提供深度连续性依据。
边缘特征：通过 Roberts 算子对输入图像进行边缘检测，提取粗边缘信息，同时将非边缘区域连接为分散区域，捕捉局部结构边界。
特征对齐：通过区域级侵蚀 - 膨胀策略（结合 RANSAC 平面化验证区域同质性）和像素级过滤，对齐深度图与边缘图，生成兼具深度连续性和边缘准确性的细粒度同质边界特征，用于指导补丁变形。

6. 代价体构建

采用基于块匹配的代价计算方式：

单应性映射：通过平面假设 $(\mathbf{n}^T,d)$ 计算投影矩阵 $H_{ij}$
块投影：将参考图像中的固定大小块 $B_p$ 投影到源图像中的映射块 $B^j_p$
NCC匹配代价：变形补丁匹配代价：结合固定补丁与子补丁的代价，公式为： $m_{ij}\left(p,B_p\right)=1-\frac{cov\left(B_p,B^j_p\right)}{\sqrt{cov\left(B_p,B_p\right)cov\left(B^j_p,B^j_p\right)}}$$其中 S 为锚点集合，Bs 为锚点 s 为中心的子补丁，λ=0.25，∣S∣=8，补丁大小均为 11×11，采样间隔分别为 5（Bp）和 2（Bs）。$ $m\left(p,B_p\right)=\frac{\sum_{j=1}^{N-1}w_{ij}(p)\cdot m_{ij}\left(p,B_p\right)}{\sum_{j=1}^{N-1}w_{ij}(p)}$$其中 wij′(p) 为恢复后的可见性权重，Sij′′ 为经深度 - 边缘先验和可见性先验筛选后的锚点集合。$

7. 代价体正则化

代价体正则主要通过几何约束和先验过滤实现，核心目标是剔除不可靠代价，提升代价体的有效性：

深度 - 边缘先验过滤：通过同质边界约束补丁变形范围，确保计算匹配代价的补丁均位于深度连续区域，避免跨异质区域的无效代价。
可见性先验过滤：利用恢复后的可见性图，过滤源图像中不可见区域对应的锚点，仅保留可见区域的补丁代价参与计算，减少遮挡带来的错误代价。

传播阶段：通过聚合可见半球法线限制法线范围，仅选择满足法线约束的邻域最优假设，确保传播的代价具有几何一致性。
细化阶段：基于极线的局部投影深度差异生成自适应深度区间，约束深度搜索范围，避免在不合理深度区间产生无效代价。

8. 深度图生成

深度图通过 “假设生成 - 代价计算 - 迭代优化” 的流程生成：

假设生成：传播阶段从八方向邻域像素中选择最低代价假设，且该假设需满足聚合可见半球法线约束；细化阶段在自适应深度区间内进行局部扰动，生成候选深度假设，同时受法线范围约束。
代价计算：对每个候选假设，通过上述代价体构建方法计算单视图匹配代价和多视图聚合代价。
迭代优化：经多轮传播与细化迭代，对每个像素选择多视图聚合代价最小的假设作为最终深度值，最终输出完整的深度图。

9. 损失函数

作为传统非学习方法，DVP-MVS不需要训练损失函数。在优化过程中使用匹配代价作为选择标准：

NCC相似度：作为主要的匹配质量度量
几何一致性：通过法线和深度约束间接指导优化
可见性权重：在代价聚合中加权不同视图的贡献

10. 测试数据集

ETH3D：高分辨率图像和多相机视频数据集，包含室内外场景
Tanks & Temples (TNT)：大规模室外真实场景数据集，包含Intermediate（8场景）和Advanced（6场景）子集
评估指标：使用准确率、完整度和F1分数进行评估

11. 消融实验

消融实验在ETH3D数据集上验证了各组件的有效性：

深度-边缘对齐先验

w/o. Agn.：移除整个深度-边缘先验，F1分数下降最严重
w/o. Ero.：移除区域腐蚀，性能中等下降
w/o. Dil.：移除区域膨胀，性能中等下降
w/o. Fil.：移除像素级过滤，性能中等下降

跨视图先验

w/o. Cro.：移除整个跨视图先验，F1分数显著下降
w/o. Res.：移除可见性图恢复，性能轻微下降
w/o. Vis.：移除可见性感知块变形，性能中等下降

几何驱动的传播和细化

w/o. Geo.：移除整个几何驱动模块，F1分数显著下降
w/o. Pro.：移除法线约束传播，性能轻微下降
w/o. Ref.：移除法线约束细化，性能中等下降
w/o. Dep.：移除深度约束，性能中等下降

所有组件的完整组合取得了最佳性能，验证了各模块的有效性和互补性。

总结

DVP-MVS通过深度-边缘对齐先验、跨视图先验和几何驱动优化的协同作用，显著提升了基于块变形的MVS方法在挑战性场景下的稳定性和准确性。该方法在保持传统方法良好泛化能力的同时，在多个基准测试上达到了领先性能，为传统MVS方法的进一步发展提供了新思路。