基本信息

项目	内容
论文标题	RoMa: Robust Dense Feature Matching
作者	Johan Edstedt1 Qiyu Sun2 Georg B¨okman3 M˚arten Wadenb¨ack1 Michael Felsberg1
作者单位	Link¨oping University, 2East China University of Science and Technology华东理工大学, 3Chalmers University of Technology
时间	2023
发表会议/期刊	cvpr2024

方法概览

特点	文章性质
输入	两帧图像
输出	图一中每个像素移动到图二的位置，以及置信度
所属领域	DenseMatching

背景

创新点

提出了 RoMa，这是一种用于密集特征匹配的模型，它对比例、照明、视点和纹理的各种具有挑战性的现实世界变化具有鲁棒性。

网络架构

摘要

特征匹配是一项重要的计算机视觉任务，涉及估计 3D 场景的两个图像之间的对应关系，而密集方法估计所有这些对应关系。目的是学习一个稳健的模型，即能够在具有挑战性的现实世界变化下匹配的模型。在这项工作中，我们提出了这样一个模型，**利用基础模型 DINOv2 中的冻结预训练特征。尽管这些特征比从头开始训练的局部特征要稳健得多，但它们本质上是粗略的。因此，我们将它们与专门的 ConvNet 精细特征相结合，创建一个可精确定位的特征金字塔。为了进一步提高鲁棒性，我们提出了一种定制的 transformer 匹配解码器，用于预测锚点概率，使其能够表达多模态。最后，我们提出了一种通过分类回归和随后的稳健回归来改进的损失公式。**我们进行了一套全面的实验，表明我们的方法 RoMa 取得了显着的收益，树立了新的最先进技术。特别是，我们在极具挑战性的 WxBS 基准测试上实现了 36% 的改进。

引言

特征匹配是从两个图像中估计对应于同一 3D 点的像素对的计算机视觉任务。它对于 3D 重建[43]和视觉定位[40]等下游任务至关重要。密集特征匹配方法[17,36,49,52]旨在找到图像之间所有匹配的像素对。这些密集方法采用从粗到细的方法，首先在粗略水平上预测匹配，然后以更精细的分辨率依次细化。以前的方法通常使用 3D 监督来学习粗略特征[17,41,44,52]。虽然这允许专门的粗略特征，但它也有缺点。特别是，由于收集真实世界的 3D 数据集成本高昂，可用数据量有限，这意味着模型存在过度拟合训练集的风险。这反过来又将模型的鲁棒性限制在与训练期间看到的场景显着不同的场景。限制过度拟合的一种众所周知的方法是冻结所使用的主链[29,47,54]。然而，使用在 ImageNet 分类上预训练的冻结主干，开箱即用的性能不足以进行特征匹配（见表 1 中的实验）。冻结预训练特征最近一个有希望的方向是使用掩蔽图像建模（MIM）进行大规模自监督预训练[24,37,56,62]。这些方法，包括 DINOv2 [60]比分类预训练[60]更好地保留局部信息，并且已被证明可以生成能够很好地推广到密集视觉任务的特征。然而，由于缺乏精细特征，DINOv2 在密集特征匹配中的应用仍然很复杂，而精细特征需要细化。

我们通过利用冻结的 DINOv2 编码器来处理粗略特征，同时使用建议的专用 ConvNet 编码器来处理精细特征，从而克服了这个问题。这样做的好处是结合了 DINOv2 出色的一般特征，同时具有高精度的精细特征。我们发现，专门用于粗略匹配或细化的特征明显优于为这两个任务共同训练的特征。这些贡献在第 3.2 节中进行了更详细的介绍。我们还提出了一种 Transformer 匹配解码器，它在提高基线性能的同时，当用于预测锚点概率而不是与 DINOv2 粗编码器结合使用时，可以特别提高性能。第 3.3 节进一步阐述了这一贡献。

最后，我们研究了如何最好地训练密集特征匹配器。最近的 SotA 密集方法，如 DKM [17]，使用非鲁棒回归损失进行粗匹配和细化。我们认为这不是最佳的，因为粗略阶段的匹配分布通常是多模态的，而条件细化更有可能是单峰的。因此需要不同的培训方法我们从第 3.4 节中的理论框架中激发了这一点。我们的框架促使将粗损和精细损失划分为单独的范式，使用粗略特征对全局匹配进行分类回归，使用精细特征进行鲁棒回归。我们称之为 RoMa 的完整方法对于极具挑战性的现实案例具有鲁棒性。

综上所述，我们的贡献如下：

（a）我们整合了基础模型 DINOv2 [37]中的冻结特征，以实现密集特征匹配。我们将 DINOv2 的粗略特征与 ConvNet 的专用精细特征相结合，生成一个精确定位但稳健的特征金字塔。参见第 3.2 节。

（b）我们提出了一种基于 Transformer 的匹配解码器，它预测锚点概率而不是坐标。参见第 3.3 节。

（c）我们改进损失表述。特别是，我们对粗略的全局匹配使用按分类的回归损失，而对细化阶段使用稳健的回归损失，这两者都是我们从理论分析中获得的。参见第 3.4 节。

（d）我们对我们的贡献进行了广泛的消融研究，并在一组多样化和有竞争力的基准上进行了 SotA 实验，发现 RoMa 树立了新的最先进技术。特别是，在困难的 WxBS 基准测试上实现了 36% 的收益。见第 4 节。