D²HC-RMVSNet(Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency Checking无聊)

基本信息

项目 内容
论文标题 Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency Checking
作者 Jianfeng Yan, Zizhuang Wei, Hongwei Yi, Mingyu Ding, Runze Zhang, Yisong Chen, Guoping Wang, Yu-Wing Tai
作者单位 Peking University
时间 2020
发表会议/期刊 ECCV

方法概览

特点 文章性质
输入 多视角
输出 参考视角深度图
所属领域 MVS

1. 摘要精简

提出一种高效精准的密集混合循环多视图立体匹配网络 D²HC-RMVSNet,用于密集点云重建。核心包含两大模块:1)轻量级 DRENet(Dense Reception Expanded),提取原始尺寸的密集特征图并聚合多尺度上下文信息;2)HU-LSTM(Hybrid U-LSTM),融合 LSTM 与 U-Net 架构,将 3D 匹配体正则化为预测深度图。引入动态一致性检查策略,替代现有方法的固定参数融合准则,动态聚合所有视图的几何一致性匹配误差。该方法在复杂户外 Tanks and Temples 基准测试中排名第一,在室内 DTU 数据集上表现与 SOTA 相当,且内存消耗仅为 R-MVSNet 的 19.4%,源代码已开源(https://github.com/yhw-yhw/D2HC-RMVSNet)。


2. 研究动机与出发点

现有深度学习 MVS 方法存在三大核心问题:一是内存限制,MVSNet 等无法处理高分辨率图像,R-MVSNet 虽降低内存但牺牲了重建精度与完整性;二是特征提取依赖含下采样的厚重骨干网络,导致信息丢失且内存消耗大;三是深度图融合采用启发式固定参数准则,对不同场景缺乏鲁棒性,导致重建完整性不足。因此,本文旨在通过轻量级特征提取、高效混合循环正则化及动态一致性检查,同时解决内存、精度与鲁棒性问题,实现高效精准的密集点云重建。


3. 创新点

  1. 提出轻量级 DRENet 特征提取器,通过空洞卷积(dilated convolution)聚合多尺度上下文信息,不损失输入图像分辨率,输出与原始尺寸一致的密集特征图;
  2. 设计 HU-LSTM 混合正则化模块,融合 LSTM 的顺序处理效率与 U-Net 的多尺度信息聚合能力,采用 ConvLSTMCell 控制信息流动,大幅降低内存消耗的同时保持精度;
  3. 提出动态一致性检查算法,不依赖固定阈值,通过聚合所有邻域视图的几何匹配一致性,筛选可靠深度值,提升重建完整性与鲁棒性;
  4. 网络可直接输出与输入图像同尺寸的深度图,无需额外上采样,且内存消耗仅为 R-MVSNet 的 19.4%,在大规模场景重建中具备强扩展性。

4. 网络架构

image-20251126181157772

网络整体分为两大核心部分,流程为 “特征提取→代价体构建→混合循环正则化→深度图生成→动态一致性过滤→点云融合”:

  1. 密集混合循环网络(DH-RMVSNet):包含 DRENet 特征提取模块和 HU-LSTM 正则化模块,输入多视图图像与相机参数,输出同尺寸密集深度图;
  2. 动态一致性检查模块:对所有视图的预测深度图进行过滤,动态筛选可靠深度值;
  3. 点云融合:将过滤后的可靠深度图反投影并融合,生成最终密集 3D 点云。

5. 特征提取

采用专门设计的 DRENet,所有多视图图像共享权重,核心是 “空洞卷积 + 多尺度特征拼接”,不损失分辨率:

  1. 网络结构:共 9 层卷积(ConvGR,含分组归一化和 ReLU),前两层为普通 3×3 卷积,后续通过 3 组不同空洞率(dilated=2、3、4)的卷积提取多尺度上下文信息,每组空洞卷积后接 1 层普通卷积;
  2. 特征聚合:将三组不同空洞率分支的输出特征(2D0_3、2D1_2、2D2_2)拼接,通过 1 层 3×3 卷积融合,最终输出 32 通道、尺寸与输入图像一致(H×W×32)的密集特征图。

6. 代价体构建

  • 使用可微分单应变换将源视图特征变换到参考视图坐标系
  • 采用方差计算聚合多视图特征匹配成本:

    C=Variance({f~i,d}i=0N1)C = \text{Variance}(\{\tilde{f}_{i,d}\}_{i=0}^{N-1})

  • 构建3D代价体 CRH×W×D\mathbf{C} \in \mathbb{R}^{H\times W\times D},其中 DD 为深度假设数

7. 代价体正则化

  • 通过 HU-LSTM 模块实现,融合 LSTM 的顺序处理与 U-Net 的多尺度聚合,核心为 ConvLSTMCell:

  • 模块结构:HU-LSTM 为 2D U-Net 架构,每层替换为 ConvLSTMCell,包含 5 个 ConvLSTMCell 层,通过最大池化(stride=2)实现下采样,反卷积(stride=2)实现上采样,跨尺度拼接(concatenation)聚合多尺度信息;

    顺序正则化:代价体C可视为 D 个 2D 代价图沿深度方向拼接,HU-LSTM 沿深度方向顺序处理每个代价图C(i),当前输出CH(i)依赖于当前输入C(i)和所有历史状态CH(0,…,i−1);

  • LSTM单元包含输入门、遗忘门、输出门:

    \begin{aligned} \mathbb{I}(i) &= \sigma(\mathbb{W}_{\mathbb{I}}*[{\cal C}(i),{\cal C}_{H}(i-1)]+\mathbb{B}_{\mathbb{I}}) \\ \mathbb{F}(i) &= \sigma(\mathbb{W}_{\mathbb{F}}*[{\cal C}(i),{\cal C}_{H}(i-1)]+\mathbb{B}_{\mathbb{F}}) \\ \mathbb{O}(i) &= \sigma(\mathbb{W}_{\mathbb{O}}*[{\cal C}(i),{\cal C}_{H}(i-1)]+\mathbb{B}_{\mathbb{O}}) \\ {\cal C}_{H}(i) &= \mathbb{O}(i)\odot tanh({\cal C}(i)) \end{aligned}

  • image-20251126180722996


8. 深度图生成

  1. 训练阶段:正则化后的代价图序列CH(i)i=0D1{C_H(i)}_{i=0}^{D−1}经 softmax 生成概率体P,通过交叉熵损失监督训练,将深度回归视为多分类任务;
  2. 测试阶段:无需存储完整概率体,沿深度方向顺序处理,采用 winner-take-all 策略选择概率最大的深度值,直接输出与输入图像同尺寸的密集深度图;
  3. 后处理:先过滤概率低于 0.4 的深度值,再经动态一致性检查筛选可靠深度,最终反投影融合为 3D 点云。

9. 损失函数

将深度回归视为多分类问题使用交叉熵损失:

{\cal L}=\sum_{x\in{x}_{valid}}\sum_{i=0}^{D-1}-G(i,x)*log(P(i,x))

其中 G(i,x)G(i,x) 为真实深度的one-hot向量,P(i,x)P(i,x) 为预测概率


10. 测试数据集

  1. DTU 数据集:含 124 个室内场景,7 种光照条件,49 或 64 个拍摄视角,提供 GT 点云,用于核心性能评估;
  2. Tanks and Temples 数据集:含复杂户外场景,分为 Intermediate 集和 Advanced 集,用于验证泛化性与大规模重建能力;
  3. BlendedMVS 数据集:含 113 个大规模场景,输入图像数量 20-1000 张,用于测试实际应用中的可扩展性。

11. 消融实验

  1. 网络架构组件:
    • 特征提取器对比:DRENet vs 2DCNNFeatNet(R-MVSNet 的特征提取器),验证 DRENet 在保持精度的同时降低内存与耗时的优势;
    • 正则化模块对比:HU-LSTM vs 3D GRU(R-MVSNet 的正则化模块)、HU-LSTM vs HU-GRU(替换 ConvLSTMCell 为 GRUCell),验证 ConvLSTMCell 与 U-Net 融合的多尺度聚合能力;
  2. 动态一致性检查:对比 DH-RMVSNet(无动态一致性检查)与 D²HC-RMVSNet(含动态一致性检查),验证动态筛选策略对重建精度与完整性的提升。

其他亮点

  • 在Tanks and Temples基准测试中排名第一
  • 内存消耗仅为R-MVSNet的19.4%
  • 支持原始分辨率深度图输出
  • 在航空影像等大规模场景中表现良好
  • 代码开源:https://github.com/yhw-yhw/D2HC-RMVSNet