DriveMVS

基本信息

项目	内容
论文标题	LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving
作者	杨胜 (Sheng Yang)¹, 张涛 (Tao Zhang)²
作者单位	¹菜鸟网络, 阿里巴巴集团; ²哈尔滨工业大学
时间	2025
发表会议/期刊	arXiv预印本 (根据文内参考文献推测为CVPR/ICCV级别工作，但本文为arXiv:2509.13414)

特点	文章性质
输入	时序长度为 T 的序列数据，单步输入包含参考图像、N 张源图像、所有视角的相机内参 + 外参（位姿）、所有视角的稀疏 LiDAR 度量提示；支持单帧 / 时序输入，非强制时序但时序输入可实现时间一致性
输出	逐像素的绝对度量深度图D^(t)∈RH×W，时序输出可保证帧间深度的时间一致性
所属领域	自动驾驶场景下的时空多视图立体匹配深度估计

1. 摘要精简

本文提出DriveMVS，一种面向自动驾驶的新型多视角立体（MVS）框架。其核心思想

1）稀疏但度量准确的 LiDAR 观测可作为几何提示锚定深度估计的绝对尺度；

2）多线索深度融合解决歧义问题，时空解码器保证帧间一致性。DriveMVS 通过Prompt-Anchored Cost Volume（PACV） 将 LiDAR 提示作为硬几何先验锚定代价体，通过Triple-Cues Combiner（TCC） 将其作为软特征级引导融合多线索，同时利用时空解码器结合多视图几何线索和相邻帧时序上下文。

实验表明，DriveMVS 在 KITTI、DDAD、Waymo 等自动驾驶基准数据集上实现 SOTA 性能，在度量精度、时间稳定性、零样本跨域迁移上表现优异，为可扩展、高可靠的自动驾驶系统提供实用价值。

2. 引言：动机与出发点

实际应用需求：**L4 级自动驾驶车辆逐渐采用极简 LiDAR 配置，需构建鲁棒的深度估计流水线以利用高保真 3D 度量信息；**同时众包驾驶数据的闭环仿真要求从真实驾驶片段中实现有效的空间建模，保证物理真实性。

论文指出，现有深度估计方法在自动驾驶场景中面临共同挑战，无法同时满足所有关键需求：

单目基础模型：虽能零样本泛化，但存在尺度模糊性和时序不一致问题。
通用MVS模型：重建保真度高，但在低视差、静态或纹理重复场景下，依赖极线几何的线索不可靠，且逐帧估计导致时序闪烁。
前馈多视图模型：推理速度快，但绝对深度精度较差。
多模态融合方法：虽然用稀疏LiDAR数据锚定深度，但这些提示本身稀疏、断续且分布不均。当提示缺失或退化时，仅依赖当前帧线索的系统会变得脆弱，导致3D结构失真。

基于以上问题，作者的出发点是：一个可靠的自动驾驶深度估计系统，必须在极简LiDAR配置下同时满足四个关键要求：1）度量尺度精度；2）时间一致性；3）对提示间歇性缺失和轻微错位的鲁棒性；4）零样本跨域泛化能力。DriveMVS正是为了调和这些相互竞争的目标而设计的。

3. 创新点

本文的主要创新点可以归纳为三个方面：

提示锚定代价体（Prompt-Anchored Cost Volume, PACV）：设计了一种新的代价体构建方式，将稀疏的LiDAR度量提示显式地嵌入到几何学习中。它通过不同的MLP分支分别学习相对一致性（来自多视图特征匹配）和绝对尺度锚定（来自LiDAR提示），然后将两者融合，防止在低视差或纹理缺失区域因相对线索模糊而导致的尺度坍塌。
三线索组合器（Triple-Cues Combiner, TCC）：提出了一个基于Transformer的模块，用于智能地融合三种异质线索：
- 代价体线索 (CV Cues)：来自代价体的几何锚定特征。
- 单目线索 (Mono Cues)：来自预训练单目模型（如DepthAnything）的强结构先验和场景级相对深度先验。
- 度量线索 (Metric Cues)：来自稀疏LiDAR的高保真绝对度量约束。
时空解码器（Spatio-Temporal Decoder）：在DPT解码器基础上，引入了运动感知的时间层和相对位姿编码。这使得解码器能够聚合相邻帧的时间上下文信息，并通过显式的几何运动信息引导时序注意力，从而保证跨帧深度预测的平滑和稳定。

前置知识：

一、对数空间深度采样的定义

对数空间深度采样是指在深度估计任务中，将深度假设值（即待验证的可能深度）按照对数尺度进行均匀分布的采样方式，而非传统的线性尺度采样。

其核心数学逻辑为：假设实际深度范围为 [dmin,dmax]，先对深度值取对数转换为 [log(dmin),log(dmax)]，再在该对数区间内均匀划分 D 个采样点（DriveMVS 中 D=64），最后通过指数变换将采样点映射回原始深度空间，得到最终的深度假设平面。

采用对数采样的核心原因：

符合人类视觉与自动驾驶场景的感知特性**：近距离物体（如前车、行人）对安全决策至关重要，需要更密集的深度采样以保证精度；**远距离物体（如远方车道线、路标）精度需求较低，可稀疏采样，对数采样天然实现 “近密远疏” 的采样分布。
平衡深度误差：线性采样在远距离区域的深度间隔过大，易导致深度估计模糊；对数采样可使不同深度区间的 “相对误差” 保持一致，避免远距离区域误差累积。

二、自动驾驶场景的深度范围界定与数据集的关系

1. 深度范围的界定逻辑

自动驾驶的深度范围界定以实际驾驶安全需求为核心，同时兼容传感器（相机、LiDAR）的物理性能，典型范围为 0.5m∼200m，具体细分：

近距离（0.5m~30m）：重点覆盖车辆周围障碍物（行人、非机动车、前车），需最高采样密度；
中距离（30m~100m）：覆盖车道内前车、路口横向来车，平衡采样密度与计算量；
远距离（100m~200m）：覆盖道路尽头、远处路标，保障高速行驶时的提前预判。

三、DriveMVS 的特征正则方法与三维卷积的区别及优缺点对比

DriveMVS 采用的是基于 Transformer 的多线索融合正则（核心模块为 Triple-Cues Combiner + 时空解码器），与传统 MVS 的三维卷积正则是两种截然不同的代价体正则化思路

4. 相关工作对比

文章将现有工作分为三大类进行对比，并指出了各自的局限性：

单目深度估计模型：如DepthAnything系列、MoGe-2、Marigold等。这类方法虽然通过大规模预训练获得了强大的零样本泛化能力，但固有的尺度模糊性使其难以恢复度量一致的深度，在自动驾驶这类需要精确尺度的大规模场景中表现不佳。
多视图前馈模型：如DUST3R、VGGT、MapAnything等。它们能进行快速的端到端预测，但在绝对深度精度上表现较差，因为直接回归几何信息忽略了显式的相机约束。
多视角立体模型：如MVS-Net、MVSAnywhere等。它们通过极线约束能恢复度量深度，但在低视差或纹理重复（如堵车、高速公路）场景中，极线线索减弱，性能会严重下降，甚至退化为尺度模糊的单目估计。

相比之下，DriveMVS通过将稀疏度量提示与多视图几何结合，并辅以时空建模，统一了这些方法的优点，同时弥补了各自的不足。

5. 网络架构

DriveMVS的整体架构如图1所示，主要由以下几个核心模块构成：

特征提取：对参考图像和源图像使用ResNet-18的前两个阶段提取1/4分辨率的深度特征。同时，使用一个稀疏感知提示编码器处理稀疏LiDAR点云，输出掩码后的度量特征 $F_{metric}$ 。
提示锚定代价体 (PACV)：同时利用多视图特征和LiDAR提示构建代价体，输出几何锚定的代价体线索 $F_{cv}$ 。同时，一个预训练的DINOv2编码器（加载DepthAnything权重）提供单目线索 $F_{mono}$ 。
三线索组合器 (TCC)：这是一个12层的掩码Transformer。它首先让三种线索（ $F_{cv}, F_{mono}, F_{metric}$ ）通过并行的自注意力进行内部 refinement，然后通过交叉注意力机制将融合了CV和Mono线索的特征与度量线索 $F_{metric}$ 进行交互，最终输出融合后的特征。
时空解码器 (Spatio-Temporal Decoder)：基于DPT架构，并在上采样块中嵌入了运动感知的时间层。它联合处理当前帧的融合tokens和相邻帧的特征，最终输出平滑稳定的视频深度。

6. 特征提取

图像特征：参考图像 $I_r(t)$ 和源图像 $I_s^i(t)$ 通过一个ResNet-18的前两个阶段，得到分辨率为 $rac{H}{4} imes rac{W}{4}$ 的深度特征 $F_r$ 和 $F_s^i$ 。
单目特征：参考图像 $I_r(t)$ 通过一个初始化为DepthAnything-V2权重的DINOv2编码器，提取具有强全局上下文的单目特征 $F_{mono}$ 。
度量特征：原始的稀疏LiDAR提示 $\mathbf{P}(t)$ 通过一个稀疏感知提示编码器。该编码器使用定制的掩码最大池化（Masked Max-Pooling）来防止稀疏信号在下采样过程中被稀释。经过四个阶段的处理后，得到下采样16倍的特征图，然后展平为token序列 $\mathbf{F}_{metric} \in \mathbb{R}^{N imes D}$ ，并生成对应的注意力掩码 $\mathbf{M}_{attn}$ ，确保Transformer不会关注无效的空区域。

7. 代价体构建

本文提出的提示锚定代价体（PACV）的构建过程如下：

元数据生成：对于参考图像的每个像素 $(u_r, v_r)$ 和每个深度假设平面 $k$ （共64个，在对数空间均匀采样），将其投影到所有 $N$ 个源视图，为每个视图 $j$ 组装一个元数据（如特征点积、射线方向、相对位姿和有效性掩码）。
相对代价体计算：将上述元数据输入到一个MLP，得到中间特征 $\mathbf{CV}_{rel}(k,j)$ ，表示学习到的相对一致性代价。
绝对代价体计算：对于当前深度假设 $d_k$ 和所有视图下采样后的稀疏提示 $P_{r,s}$ ，计算它们在深度 $d_k$ 处的绝对差值。无效像素用-1填充。将这些跨视图的成本拼接后，通过一个轻量级MLP，得到中间绝对特征 $\mathbf{CV}_{abs}(k,j)$ 。
锚定特征融合：将相对和绝对特征拼接，形成一个统一的锚定特征：
$\phi (k,j) = \mathrm{Concat}(\mathbf{CV}_{rel}(k,j),\mathbf{CV}_{abs}(k,j))$
最终代价聚合：将 $\phi (k,j)$ 通过另一个MLP解码出权重 $\omega (k,j)$ 和得分 $s(k,j)$ ，然后对所有源视图进行加权求和，得到最终的锚定代价体：

代价体正则化

论文中的代价体正则化是通过三线索组合器（TCC）隐式完成的。TCC是一个多层的Transformer，它通过自注意力和交叉注意力机制，让原始的代价体线索 $F_{cv}$ 与其他线索（单目线索 $F_{mono}$ 和度量线索 $F_{metric}$ ）进行交互和融合。这个过程可以被理解为利用强大的单目先验和高保真的度量信息来“正则化”或“优化”几何锚定的代价体特征，从而解决其模糊性问题。

具体流程为：

内部精炼： $F_{cv}, F_{mono}, F_{metric}$ 分别通过带掩码的自注意力（Mask-SA），进行内部 refinement。
跨线索融合：首先将精炼后的CV和Mono线索进行逐元素相加融合： $Z = F_{cv}^{\prime}\oplus F_{mono}^{\prime}$ 然后，将融合特征 $Z$ 作为查询，与度量线索 $F_{metric}^{\prime}$ 进行交叉注意力计算，将高保真的度量信息注入到几何特征中： $\hat{F}_{cv} = Z + \mathrm{CA}(\mathrm{Q} = Z,\mathrm{K} = \mathrm{V} = F_{metric}^{\prime})$ 这个交叉注意力过程受到有效提示位置的限制，确保了局部保真度和时间一致性。

9. 深度图生成

最终深度图的生成由时空解码器完成，过程如下：

特征输入：解码器接收来自TCC的融合特征 $F_i$ 作为输入。
几何嵌入：在进入时间注意力层之前，为每个像素计算并嵌入其几何信息。对于第 $t$ 帧的像素 $\mathbf{p} = (u,v)$ ，其相机射线原点 $\mathbf{o}_t$ 和方向 $\mathbf{d}_t$ 被计算出来，并通过傅里叶特征和MLP映射为几何嵌入 $E_{geo}(t,u,v)$ 。然后将其加到解码器特征上： $\hat{F} = F + E_{geo}$ 。
时空上采样：解码器基于DPT结构，均匀采样4个尺度的特征图作为输入。在特定的低分辨率阶段，插入时间层。该时间层由一个多头自注意力（MSA）模块和一个前馈网络（FFN）组成，仅沿着时间轴进行自注意力操作，从而实现帧间特征的交互。嵌入的相对位姿信息帮助模型更好地理解帧间的像素对应关系和运动。
深度恢复：经过上采样和时空融合后，解码器输出逐像素的logit图 $\mathbf{x}(t)$ 。最终，绝对度量深度 $\hat{D} (t)$ 通过对sigmoid函数 $\sigma$ 的输出进行缩放来恢复，使其匹配代价体的绝对度量范围： $\hat{D} (t) = xp (\log (d_{\min}) + \log (d_{\max} / d_{\min})$