RAP: Register Any Point

基本信息

项目	内容
论文标题	Register Any Point: Generative Multi-View Point Cloud Registration
作者	Yue Pan, Tao Sun, Liyuan Zhu, Lucas Nunes, Iro Armeni, Jens Behley, Cyrill Stachniss
作者单位	波恩大学机器人中心（德国）, 斯坦福大学（美国）, 亚琛工业大学（德国）
时间	2026 (推测)
发表会议/期刊	arXiv preprint / 待发表 (推测)

方法概览

特点	文章性质
输入	多个未对齐的、无序的点云（任意数量）
输出	配准后的点云（全局一致），并恢复每个点云的刚性变换
所属领域	三维视觉、多视角点云配准、生成式模型

1. 摘要精简

RAP (Register Any Point)，将点云配准建模为条件流匹配生成任务，以单阶段方式直接从高斯噪声生成全局对齐的点云，无需传统成对匹配与位姿图优化。通过测试时刚性强制采样保证每一点云的刚性变换约束，结合 17 个数据集、14 万 + 跨域训练样本实现强泛化能力。

通过扩大训练数据规模并在测试时强制刚性约束，该方法在现有的两两配准基准和我们提出的跨域多视角配准基准上均取得了最佳结果。在跨域基准上的优异零样本性能表明，该方法能够泛化到不同视角数量、场景尺度和传感器模态，即使在低重叠情况下也表现良好。

2. 引言出发点

传统的多视角点云配准采用两阶段流程：先对每对点云独立进行配准（通常基于特征匹配和鲁棒估计），然后通过位姿图优化（PGO）全局同步位姿。这种方法存在两个主要局限：① 二次复杂度：配准所有点对的计算成本随扫描数量呈平方增长；② 全局上下文有限：两两配准阶段缺乏全局几何约束，在低重叠或不完整观测下性能下降。虽然已有工作通过层次化配准或边选择来降低复杂度，但仍依赖于对两两配准误差敏感的迭代式位姿图优化。

近期图像领域的前馈式重建方法（如MASt3R、VGGT）和点云领域的生成式配准方法（如RPF）表明，单一模型可以通过足够的数据和能力，从多个局部观测中直接产生一致的3D对齐。本文受此启发，提出将多视角配准建模为条件流匹配生成问题，直接生成全局配准后的点云，避免了显式的两两配准和位姿图优化。

3. 创新点与相关工作对比

创新点：

生成式多视角配准框架：首次将流匹配（flow matching）应用于大规模跨域多视角点云配准，直接生成配准后的点云，无需两两配准和位姿图优化。
刚性强制推理：针对生成过程中可能出现的非刚性漂移，提出在欧拉积分每一步对当前预测进行刚性投影（Kabsch算法），确保每视角点云保持刚性变换，同时利用该过程中的刚性误差作为多次生成的选择依据。
规范化的关键点配准流程：通过关键点采样、局部描述子提取、全局相似性归一化（平移、缩放、随机旋转），使模型对坐标系的绝对位置和尺度不变，能够处理从物体到大规模室外场景的多样数据。
跨域多视角配准基准：构建了一个涵盖物体、室内、室外、地面激光扫描（TLS）、地图等多种场景类型的零样本测试基准，填补了现有评估缺乏跨域挑战的空白。

与相关工作对比及指出的问题：

对比方法	问题
传统两阶段方法（如FPFH+FGR、FCGF+PGO）	二次复杂度、全局约束有限、对低重叠鲁棒性差
学习型两阶段方法（如SGHR）	仍需构造稀疏位姿图并进行迭代优化，复杂度仍随边数增长
RPF（最接近的生成式方法）	局限于物体级场景（ModelNet等），无法处理大规模、跨域数据，且无刚性强制推理
BUFFER-X 等强基线	即使扩增训练数据，仍难以在跨域基准上超越本文方法，表明数据规模提升需配合更优的模型设计
KISS-Matcher	基于手工特征，虽有一定泛化性，但性能远低于本文方法

4. 网络架构构成

本文模型采用 扩散变换器（Diffusion Transformer, DiT） 作为条件流匹配的主干，并引入 交替注意力机制（alternating attention）。架构包含以下要点：

输入：归一化后的关键点坐标 $\bar{\mathcal{Q}}$ 及其局部特征 $\mathcal{F}$ （由 MiniSpinNet 提取）拼接作为条件 $\mathbf{C} = f_{\mathrm{emb}}(\bar{\mathbf{Q}},\mathcal{F})$ 。
时间步：噪声点云 $\mathbf{X}(t)$ 与条件 $\mathbf{C}$ 共同输入网络。
交替注意力：共 $L=10$ 个块，每块先进行 视角内自注意力（per-view self-attention）聚合单视角结构，再进行 全局注意力（global attention）跨视角融合信息。
输出：预测的速度场 $\mathbf{V}_\theta(t, \mathbf{X}(t) \mid \mathbf{C})$ 。
参数量：隐藏层维度 512，注意力头数 8，总参数量 7300 万。

5. 数据预处理与点的无序性/稀疏性处理

5.1 数据预处理

关键点采样：对每个输入点云 $\mathbf{P}_i$ 进行体素下采样（体素大小 $v_d$ ），得到 $\mathbf{P}_i^v$ ；再通过最远点采样（FPS）选取 $K_i$ 个关键点 $\mathbf{Q}_i$ ， $K_i$ 与点云空间覆盖度成正比（比例因子 $\alpha_s = 0.2$ ）。
局部描述子提取：对每个关键点，在其邻域（半径 $r_s = 20v_d$ ）内提取点集，输入预训练的 MiniSpinNet 获得 32 维描述子，构成特征 $\mathbf{F}_i$ 。
归一化（规范空间）：
- 对每个视角的关键点 $\mathbf{Q}_i$ 平移至零中心。
- 计算全局尺度因子 $s$ 为点云数最多视角的包围盒最长边长度，将所有视角的关键点除以 $s$ 。
- 对每个视角施加相同的随机旋转（以最大视角的旋转为基准），得到归一化坐标 $\bar{\mathbf{Q}}_i$ 。
- 目标配准点云 $\mathbf{Q}^r$ 也做同样平移、旋转、缩放，得到 $\bar{\mathbf{Q}}^r$ 作为流匹配的目标 $\mathbf{X}(0)$ 。

5.2 点的无序性/稀疏性处理

无序性：通过关键点采样（FPS）和局部描述子（旋转不变的 MiniSpinNet）消除顺序影响；注意力机制本身对输入顺序敏感，但交替注意力中不依赖视图索引，且通过置换不变的池化/匹配来保证整体不变性。
稀疏性：采用体素下采样和 FPS 压缩点云，仅对关键点进行生成，最后将变换提升到所有点；训练时动态批处理控制 token 数（最大 11 万 token/GPU）。

6. 特征提取

局部特征：使用预训练的 MiniSpinNet（轻量级旋转不变描述子），对每个关键点的邻域点云（归一化后）提取 32 维特征。
位置编码：对归一化坐标 $\bar{\mathbf{Q}}$ 应用多频率傅里叶特征映射（NeRF 式的位置编码），与局部特征拼接后经线性嵌入得到条件 $\mathbf{C}$ 。
全局特征：通过交替注意力的全局注意力层，模型自动融合多视角信息，生成每个关键点的上下文增强特征（但最终输出是速度场，而非特征本身）。

7. 如何找到两个点云的匹配关系

本文不显式寻找点对应关系。模型通过流匹配直接生成配准后的点云，点与点之间的对应关系隐含在生成过程中：噪声点云中的每个点被逐渐移动到目标位置，而不同视角的点云在目标点云中自然交织在一起。模型学习的是从噪声点到目标点的速度场，而非显式匹配。

8. 如何基于两个点云的匹配关系计算变换关系

不通过匹配计算变换。在推理生成配准点云 $\hat{\mathbf{X}}(0)$ 后，通过 Kabsch 算法（SVD）求解每个视角的原始关键点 $\mathbf{Q}_i$ 与 $\hat{\mathbf{X}}(0)$ 中对应子集之间的最优刚性变换 $(\hat{\mathbf{R}}_i, \hat{\mathbf{t}}_i)$ 。最终将变换应用到原始稠密点云 $\mathbf{P}_i$ 得到配准结果。

9. 完整流程：输入点云到输出变换关系

输入： $N$ 个无序点云 $\{\mathbf{P}_i\}$ （任意数量）。
关键点采样与特征提取：对每个 $\mathbf{P}_i$ 进行体素下采样、FPS 选点，用 MiniSpinNet 提取局部特征，得到 $(\mathbf{Q}_i, \mathbf{F}_i)$ 。
规范化：计算全局尺度 $s$ ，平移并对齐旋转，得到归一化坐标 $\bar{\mathbf{Q}}_i$ 和对应的特征 $\mathcal{F}$ 。同时构建归一化后的目标点云 $\bar{\mathbf{Q}}^r$ （训练时用真实位姿，推理时未知）。
条件流匹配生成：
- 采样噪声点云 $\mathbf{X}(1) \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ ，形状与 $\bigcup \bar{\mathbf{Q}}_i$ 相同。
- 对于时间步 $t$ 从 1 到 0，通过模型 $\mathbf{V}_\theta$ 预测速度，进行欧拉积分（ $\kappa=10$ 步）。
- 刚性强制推理（测试时）：在每一步先根据当前 $\mathbf{X}(t)$ 和速度外推出 $\hat{\mathbf{Y}}(0)$ ，对 $\hat{\mathbf{Y}}(0)$ 中每个视角的点用 Kabsch 投影到刚性轨道，再按式 (5) 更新 $\mathbf{X}(t-\Delta t)$ 。
恢复变换：积分得到 $\hat{\mathbf{X}}(0)$ 后，用 Kabsch 计算每个视角的变换 $(\hat{\mathbf{R}}_i, \hat{\mathbf{t}}_i)$ ，并应用到原始稠密点云 $\mathbf{P}_i$ 。
输出：配准后的点云 $\{\hat{\mathbf{P}}_i^r\}$ ，及各视角的刚性变换 $\hat{\mathbf{T}}_i$ 。

10. 损失函数

采用 条件流匹配损失（Conditional Flow Matching Loss）：

$\mathcal{L}_{\mathrm{FM}} = \mathbb{E}_{t, \mathbf{X}(t), \mathbf{C}} \left[ \| \mathbf{V}_\theta(t, \mathbf{X}(t) \mid \mathbf{C}) - \nabla_t \mathbf{X}(t) \|^2 \right]$

其中 $\nabla_t \mathbf{X}(t) = \mathbf{X}(1) - \mathbf{X}(0)$ （因为线性插值 $\mathbf{X}(t) = (1-t)\mathbf{X}(0) + t\mathbf{X}(1)$ ）。时间步 $t$ 按 U 型分布采样 [62] 以加强不同阶段的训练。优化器采用 Muon，矩阵参数学习率 $2\times 10^{-3}$ ，向量参数 $2\times 10^{-4}$ ，余弦退火调度。

11. 测试数据集与自建基准

11.1 两两配准测试

ModelNet（物体）、3DMatch（室内）、3DLoMatch（室内低重叠）、NSS（室内时空变化）、ETH（室外）、KITTI（室外）。

11.2 多视角配准测试

室内基准：3DMatch、ScanNet 的稀疏视图子集（ $3 \leq N \leq 12$ ）。
跨域多视角配准基准（本文新提出）：涵盖 5 类场景——物体、室内、室外、地面激光扫描（TLS）、地图。从 28 个未见过的数据集中构建测试样本（如图 3），用于零样本评估。详细组成见表 10。

11.3 其他应用测试

离线 SLAM 位姿估计：FusionPortablev2 数据集。
机器人操作：仿真环境（基于 Objaverse LVIS 和 GraspVLA）。
开放世界部分分割：PartObjaverse-Tiny。

11.4 训练数据

从 17 个数据集中（包括 KITTI、nuScenes、Waymo、3DMatch、ScanNet、ModelNet 等）通过算法 2 自动生成超过 10 万组多视角配准实例（样本数 141k，点云数 520k，总点数 >100 亿）。训练时确保测试集序列不参与训练。

12. 消融实验测试的组件

消融实验在 3DMatch/3DLoMatch（两两）和跨域基准（多视角）上进行，默认设置包括刚性强制（RF）、10 步积分。测试了以下组件：

刚性强制推理（RF）：去除 RF 后性能下降（表 3，[A] vs [B]）。
积分步数：从 10 步减到 1 步，性能大幅下降（[A] vs [C]），但单步仍优于多数基线。
局部特征：去除局部特征（仅用坐标），性能急剧下降（[A] vs [D]）。
模型容量：减少 Transformer 块数（L=8,6），性能随之下降（[A] vs [E]、[F]）。
视角数与重叠率的影响：图 4 显示本文方法在低重叠（20%）和多视角情况下仍保持高成功率，优于基线。
运行时分析：图 5 显示本文方法随视角数增长接近线性，快于两阶段基线。

此外，附录中还有关于不同阈值（0.5% / 3°）下的对比（表 8），以及 ECDF 曲线（图 7、8），进一步验证了模型的优越性。

其他创新点

可扩展的动态批处理：应对变长、变 token 数的样本，最大 token 限制为 110k/GPU，有效利用资源。
测试时多次生成与选择：利用刚性误差作为指标，从多次生成中挑选最优结果（文中未详细展开，但提及“effective criterion for selecting among multiple generations”）。
跨域泛化能力：零样本测试在未见过的传感器类型和场景上仍取得高成功率，表明模型真正学习了通用的几何对齐能力。

1. 推理时，每一次输入网络前做的点云预处理（Algorithm 1）

对每个点云 $P_i$ 执行：

体素降采样：用 $v_d$ 体素网格下采样，得到 $P_i^v$
统计去噪：移除离群点
Coverage 体素化：用 $v_c$ 体素化，统计有效体素数 $V_i$
最远点采样 FPS：按比例 $K_i=⌊α_sV_i⌋$ 采样关键点 $Q_i$
局部特征提取：对每个关键点做球查询（半径 $r_s=20v_d$ ），用MiniSpinNet提取 32 维旋转不变特征

① Coverage 体素化（Coverage Voxelization）决定采多少点

作用：算 “这片空间大概有多少有效区域”，用来决定采多少个点。

把点云放进一个固定大小的体素格子（比如 vc=0.5m）
只要格子里至少有 1 个点，就算 1 个 “有效体素”
统计总有效体素数 Vi → 代表这片点云的空间覆盖大小

目的：不让小场景采太多点、大场景采太少点，保证空间均匀性。

② 最远点采样 FPS（Farthest Point Sampling）决定采哪些点

**作用：从点云里挑出最 “分散、均匀” 的 K 个点。**步骤很简单：

随机选第一个点
每次选离已选点最远的点
重复到选出 K 个点

优点：

不会扎堆
覆盖全局形状
比随机采样好太多

2. 训练样本生成（Algorithm 2）

输入：序列位姿 $T_i$ 、点云 $S_i$ 输出：合法多视点配准样本步骤：

关键帧筛选：按时间 / 空间阈值去重，避免静止 / 慢移冗余帧
去畸变（可选）：LiDAR 数据做运动去畸变
随机采样 N 个视点： $N∈[N_{min},N_{max}]$ （默认 2~16）
累积子图（可选）：连续 F 帧累积成一个子图点云
空间校验：所有点云中心距离 < $d_max$
重叠校验：构建重叠图，必须连通，重叠阈值极低（0.5%~2%）
保存样本：满足条件则保存为训练样本

3. 归一化与规范化（Canonicalization）

为保证尺度 / 旋转 / 平移不变：

中心化：关键点移到质心原点
统一尺度：按最大包围盒边长缩放到单位立方体
随机旋转：增强旋转不变性
目标对齐：配准后点云同样规范化，作为 Flow Matching 目标

三、KITTI 数据集专项处理（最详细）

KITTI 是论文核心室外 LiDAR 基准，分训练集构建与测试集处理两部分。

1. KITTI 训练数据处理（Table 4）

场景：德国城市 / 高速
传感器：Velodyne-64
样本类型：单帧 Scan + 子图 Submap
关键参数：
- $N_max$ ：Scan=8，Submap=10
- $F_max$ ：Scan=1，Submap=600
- $d_max$ ：100m（Scan）/400m（Submap）
- 重叠阈值：1%（Scan）/0.5%（Submap）
- 预处理：αs=0.2，vd=0.25

具体步骤：

去畸变：KITTI 点云已做去 skew，直接使用
关键帧选取：按空间距离筛选，移除冗余帧
生成两类样本：
- Scan 样本：单帧作为一个视点
- Submap 样本：连续最多 600 帧累积成一个子图点云
空间约束：视点间中心距≤100m/400m
重叠约束：允许极低重叠（0.5%~1%），强制图连通
格式输出：点云 + 对应全局位姿，无其他标注

2. KITTI 测试数据处理（Table 5）

用途：成对配准基准测试
样本数：555 对
尺度：~160m
成功判定：平移误差 < 2m，旋转误差 < 5°
处理：直接用官方测试序列，不参与训练

3. KITTI 低重叠测试（Fig 6）

论文额外构建远距离低重叠测试集：

两帧间距从 10m→50m 逐步增大，重叠急剧降低
验证 RAP 在极低重叠下的配准稳定性