FUSER: Feed-forward Multiview Registration Transformer

FUSER 没有 “参考点云” 这个概念！

世界坐标系 = 数据集自带的真实全局坐标系（GT 里给的）

基本信息

项目	内容
论文标题	FUSER: Feed-forward Multiview Registration Transformer
作者	Haobo Jiang, Ao Shenn, Yu Liang, Jiaxiang Yang, Jianxin Xie
作者单位	Nanyang Technological University, Alibaba Group, Nankai University, Nanjing University 1. 南洋理工大学 2. 阿里巴巴集团 3. 南开大学 4. 南京大学
时间	2025
发表会议/期刊	CVPR

方法概览

特点	文章性质
输入	无序、部分重叠的多视角点云集合
输出	每个点云的全局刚性变换（旋转 + 平移）
所属领域	三维视觉、多视角点云配准

1. 摘要精简

FUSER 是第一个前馈式多视角配准 Transformer，它将所有点云共同编码到一个紧凑的隐空间中，直接预测全局位姿，无需任何两两估计。为了保持可操作性，FUSER 通过稀疏 3D CNN 将每个点云编码为低分辨率超点特征（保留绝对平移线索），并通过几何交替注意力模块进行高效的扫描内和扫描间推理。特别地，他们将现成基础模型中的 2D 注意力先验迁移到 3D 特征交互中，以增强几何一致性。在此基础上，进一步提出 FUSER‑DF，一个在联合 $\mathrm{SE}(3)^N$ 空间上的扩散精炼框架，通过去噪过程校正 FUSER 的估计。实验表明，该方法在 3DMatch、ScanNet 和 ArkitScenes 上实现了卓越的配准精度和计算效率（分钟级→秒级）。

2. 引言出发点

传统多视角点云配准遵循“两两配准 → 全局同步”的两阶段范式：先为每对点云估计相对位姿构建位姿图，再通过位姿同步恢复全局绝对位姿。这种做法存在固有缺陷：

缺乏全局上下文：每对配准独立进行，忽略了其他扫描的几何约束，在低重叠或对称场景中会产生歧义；
异常值敏感：不准确的两两估计污染位姿同步，导致全局误差传播；
计算开销大：冗余的两两配准（特征提取、异常值剔除）非常耗时；
强归纳偏置：需要大量手工设计（如图稀疏化、鲁棒损失、同步策略），限制模型灵活性，阻碍全局最优。

为此，本文提出 FUSER，首个端到端前馈式多视角配准 Transformer，直接对所有扫描进行联合推理，一次性输出每个扫描的绝对位姿，避免两两配准及其所有衍生问题。

3. 创新点与相关工作对比

创新点：

全新前馈范式：首次将多视角配准转化为一个统一的前馈过程，统一隐空间对所有扫描联合推理直接预测全局位姿，无需两两配准和位姿同步。
绝对几何编码：使用保留绝对平移线索的稀疏 3D CNN 编码点云，替代传统相对/平移不变的描述子，使绝对平移回归成为可能。
几何交替注意力：在 Transformer 中交替进行扫描内和扫描间消息传递，并创新地利用 2D 基础模型（ $\pi^3$ ）的注意力先验初始化，实现 2D→3D 跨模态迁移。
$\mathrm{SE}(3)^N$ 扩散精炼：在 FUSER 基础上提出 FUSER‑DF，将多视角位姿精炼建模为联合 $\mathrm{SE}(3)^N$ 空间上的去噪扩散过程，利用 FUSER 本身作为代理配准模型构造去噪器，并推导了先验感知的变分下界进行监督。
无参考位姿监督策略不直接监督绝对世界坐标系位姿，转而监督相对位姿，保证扫描顺序置换等变性，训练更稳定。

与现有工作的对比及指出的问题：

对比方法	问题
传统两阶段方法（如 EIGSE3、L1-IRLS、RotAvg、LMVR、LITS、HARA、SGHR、MDGD等）	依赖两两配准，缺乏全局约束，计算冗余，易受异常值影响。
学习型同步方法（如 LITS、FeatSync）	仍基于两两配准图，未能摆脱两阶段框架，误差累积难以避免。
单对配准方法（如 GeoTransformer、Predator、RoITr）	仅处理两帧，无法直接扩展至多视图，未利用跨扫描几何一致性。
现有 SE(3) 扩散配准（如 SE(3) diffusion）	仅处理两两相对位姿估计，未考虑多视图联合扩散。

FUSER 通过统一前馈设计完全摆脱了两阶段框架，FUSER‑DF 则将扩散过程扩展到 $\mathrm{SE}(3)^N$ 联合空间，实现多视图协同精炼。

4. 网络架构构成

FUSER 的整体架构如图 2 所示，包含三个核心模块：

绝对几何编码器：分层体素化与稀疏卷积，输出低分辨率超点（superpoint）及其特征，保留绝对空间坐标。
几何交替注意力模块：由 32 层交替的16 层扫描内注意力 + 16 层扫描间注意力组成，实现局部与全局几何推理。初始化时加载 2D 基础模型 $\pi^3$ 的注意力权重（迁移 2D 先验），并使用超点坐标的正弦位置编码注入绝对位置信息。
全局位姿预测头：自注意力 + 全局池化 + 轻量 MLP，对每个扫描的增强超点特征进行全局平均池化，得到扫描级描述子，再通过两个 MLP 头分别回归平移向量和 9D 旋转代理，最后经 SVD 正交化得到有效旋转矩阵。
FUSER-DF 在 FUSER 之上增加：
- SE(3)N 前向扩散过程：从真实位姿向 FUSER 预测位姿加噪。
- SE(3)N 逆向去噪过程：以 FUSER 为代理模型预测残差位姿，逐步去噪精炼。

5. 数据预处理与点的无序性/稀疏性处理

使用 4 大规模室内数据集：3DMatch、ScanNet、ScanNet++、ArkitScenes。
输入：每个点云 $\mathbf{S}_i$ 包含原始 3D 坐标，无额外预处理（如法线、颜色）。
预处理：采用稀疏 3D CNN（MinkowskiEngine）进行体素化下采样
**超点下采样：**通过5 层稀疏卷积（核 3×3×3，步长 2）生成紧凑的超点 $M_i' \ll M_i$ ，在保留几何结构的同时大幅减少 token 数量，使后续跨扫描注意力可行。
无序性处理：交替注意力模块设计为置换等变（通过移除 VGGT 中的参考 token 实现），保证输入扫描顺序改变时输出特征不变。
$AA(P_π(S′),P_π(F))=P_π(AA(S′,F))$
位置编码：对超点坐标使用正弦位置编码，**使用超点坐标的正弦位置编码而非相对位置编码，**避免跨扫描时坐标系混乱。

什么是 “保留绝对平移线索”？

直白解释：不让模型丢失 “这个点云在世界空间里到底在哪” 的位置信息。

传统配准网络（如 KPConv、GeoTransformer）都做相对归一化：把点云移到中心、缩放，只学相对形状，丢掉绝对位置。
但 FUSER 要直接预测世界坐标系下的绝对位姿（包括平移 t）所以不能做归一化，必须保留原始坐标。

每个 token 如何编码？

FUSER 不用 2D 的 ROPE，也不用相对位置编码。它用**正弦位置编码（Sinusoidal Positional Encoding）**直接作用在 超点的 3D 坐标 (x,y,z) 上。把坐标映射成高维编码，注入每一层注意力，每个 token = 1 个超点token 信息 =超点坐标的正弦位置编码 + 超点的 CNN 特征

分层体素化（Hierarchical Voxelization）是怎么做的？

FUSER 使用 MinkowskiEngine 稀疏卷积，步骤固定：

把原始点云按空间分到体素栅格。
第 1 层卷积：体素尺寸小 → 精细特征。
第 2–5 层卷积：步长 2 不断下采样 → 体素越来越大。
每一层都做：
- 体素化
- 稀疏 3D 卷积
- 输出该层的超点
最终输出 最低分辨率、最紧凑的超点集合。

6. 特征提取

底层几何特征：绝对几何编码器通过稀疏 3D CNN 提取层次化特征，每层包含 3D 卷积和残差块，最终每个超点获得一个 $d$ 维特征向量（ $d=1024$ ）。输出紧凑超点 $S_i′∈R^$ 与特征 $F_i′∈R^{M_i′×F}$
上下文增强：几何交替注意力处理输出增强后的超点特征 $\tilde{\mathcal{F}}$ $\tilde{F}$ 。
- 扫描内注意力：捕捉局部表面几何。
- 扫描间注意力：建模全局多扫描几何关系。
- 用 π3 预训练权重初始化，迁移 2D 注意力先验。
扫描级全局特征：对每个扫描的所有超点特征进行全局平均池化，得到紧凑的扫描描述子，供位姿预测头使用。

7. 如何找到两个点云的匹配关系

FUSER 不显式寻找点对应关系，而是通过注意力机制隐式建模跨扫描几何关联。在几何交替注意力中，扫描间交叉注意力层直接在不同扫描的超点之间进行消息传递，使网络能够学习到哪些超点区域在不同扫描中对应相同的空间结构，从而隐式建立对应关系。最终通过全局位姿回归，网络端到端地预测使所有扫描对齐的位姿。

8. 如何基于匹配关系计算变换关系

超点特征→自注意力 refine→全局平均池化→扫描级描述子,由MLP 头回归：

平移 $\hat{\mathbf{t}}_i$ 由 MLP 直接输出 3 维向量。
旋转由 MLP 输出 9 维代理，再通过 SVD 正交化投影到 $SO(3)$ 得到 $\hat{\mathbf{R}}_i$ 。

网络通过全局损失（见第 10 节）间接学习从超点特征到位姿的映射，该映射隐含了跨扫描几何一致性约束。

9. 完整流程：输入到输出

输入： $N$ 个无序点云 $\{\mathbf{S}_i \in \mathbb{R}^{M_i\times 3}\}$ 。
绝对几何编码：每个点云经稀疏 3D CNN 生成超点集合 $\mathbf{S}'_i$ 及其特征 $\mathbf{F}_i$ 。
几何交替注意力：将所有超点及其特征输入 $L=32$ 层交替注意力（先扫描内自注意力，后扫描间交叉注意力），获得增强特征 $\tilde{\mathbf{F}}_i$ 。
全局位姿预测：对每个扫描，对其所有超点的增强特征进行全局平均池化，得到扫描级描述子；然后分别通过两个 MLP 预测平移 $\hat{\mathbf{t}}_i$ 和 9D 旋转代理，旋转代理经 SVD 正交化得到 $\hat{\mathbf{R}}_i$ 。
输出：每个扫描的全局位姿 $\hat{\mathbf{T}}_i = (\hat{\mathbf{R}}_i, \hat{\mathbf{t}}_i)$ 。

对于 FUSER‑DF，在 FUSER 输出基础上，再通过 $\mathrm{SE}(3)^N$ 扩散精炼模块（以 FUSER 为代理去噪器）迭代优化位姿。

10. 损失函数

训练 FUSER 时，采用参考帧无关的成对相对位姿监督，避免全局坐标系不一致问题。对任意 $i \neq j$ ，计算预测相对变换 $\hat{\mathbf{T}}_{i\leftarrow j} = \hat{\mathbf{T}}_i^{-1}\hat{\mathbf{T}}_j$ 与真值 $\mathbf{T}_{i\leftarrow j}$ 之间的损失：

旋转测地线损失：

$\mathcal{L}_{\mathbf{r}}(i,j) = \arccos\left( \frac{\mathrm{Tr}(\mathbf{R}_{i\leftarrow j}^{\top}\hat{\mathbf{R}}_{i\leftarrow j}) - 1}{2} \right)$

平移 Huber 损失（ $\beta=0.06$ ）：

$\mathcal{L}_{\mathbf{t}}(i,j) = \ell_{\beta}\left( \hat{\mathbf{t}}_{i\leftarrow j} - \mathbf{t}_{i\leftarrow j} \right)$

点一致性损失（将源点云变换到目标坐标系后计算 L1 距离）：

$\mathcal{L}_{\mathbf{p}}(i,j) = \frac{1}{N_j}\sum_{l=1}^{N_j} \left\| (\hat{\mathbf{R}}_{i\leftarrow j}\mathbf{p}_l + \hat{\mathbf{t}}_{i\leftarrow j}) - (\mathbf{R}_{i\leftarrow j}\mathbf{p}_l + \mathbf{t}_{i\leftarrow j}) \right\|_1$

总损失为所有有序对（ $i\neq j$ 的平均：

$\mathcal{L} = \frac{1}{N(N-1)}\sum_{i\neq j} \left[ \mathcal{L}_{\mathbf{r}}(i,j) + \gamma_t \mathcal{L}_{\mathbf{t}}(i,j) + \gamma_p \mathcal{L}_{\mathbf{p}}(i,j) \right],\quad \gamma_t=0.1,\ \gamma_p=0.1$

对于 FUSER‑DF 的训练，利用推导的先验感知变分下界，核心是先验感知去噪匹配项，其本质上等同于使用 FUSER 预测的残差位姿 $\mathbf{T}_i^{t\to 0}$ 来监督，因此可以使用与上述相同的成对损失函数来训练代理去噪器（即 FUSER 本身）。

11. 测试数据集

ScanNet：1,513 个室内 RGB-D 序列，用于训练和测试。测试时采用 32 个序列，每个序列 30 帧（间隔 20 帧）。指标：旋转误差/平移误差的累积分布（ECDF）。
3DMatch：8 个室内场景测试集。构造 60 帧序列（间隔 20 帧），不使用 TSDF 融合的片段，直接使用原始单帧以模拟真实低重叠情况。指标：配准召回率（RR，阈值 $15^\circ)/0.3m）、平均旋转/平移误差。
ArkitScenes：室内 LiDAR 数据，随机选取 15 个序列，每个序列 200 帧（间隔 3 帧）。指标同 3DMatch。
训练集：使用 3DMatch、ScanNet、ScanNet++、ArkitScenes 的合并训练数据，共 2 个 epoch。

12. 消融实验测试的组件

2D 注意力先验迁移：对比使用随机初始化与加载 $\pi^3$ 预训练权重的效果，证明 2D 先验显著提升精度。
数据规模的影响：逐步增加训练数据量（从仅 ScanNet 到合并四个数据集），观察性能增益，验证模型的可扩展性。
运行时与内存分析：对比两阶段方法（FCGF, Predator, YOHO, GeoTrans, PARENet 等）与 FUSER/FUSER‑DF 的推理时间，显示前馈范式的秒级效率。
消融设计细节（文中隐含）：交替注意力的层数、是否使用绝对坐标编码、是否置换等变等（在正文中简要提及，如移除 VGGT 的参考 token 以实现置换等变，使用正弦位置编码替代相对位置编码的实验对比）。

其他创新点

$\mathrm{SE}(3)^N$ 扩散精炼框架：将多视角位姿精炼建模为联合流形上的去噪过程，并推导先验感知的变分下界，使得可以利用 FUSER 本身作为代理模型进行训练，显著提升 FUSER 输出的精度。
置换等变的交替注意力：通过移除 VGGT 中的参考 token，使模块对输入扫描顺序不敏感，保证了模型在不同顺序下的输出一致性。
2D→3D 注意力先验迁移：首次验证了 2D 视觉基础模型的注意力权重可直接初始化 3D 点云 Transformer 并带来增益，为跨模态基础模型研究提供了新思路。

稠密点 → 稀疏超点：完整实现流程

前馈配准网络（FUSER 标准方案） 统一使用：

稀疏 3D CNN + 分层体素化下采样

（基于 Minkowski Engine 稀疏卷积库，代码可直接复现）

完整步骤（逐行对应实现）

步骤 1：原始稠密点云输入

输入：无序、稠密、带世界坐标的点云 P∈RN×3N：几万～几百万（冗余、稀疏、无序）

步骤 2：稀疏体素化（空间网格化）

将 3D 空间划分为固定大小的体素栅格（如 voxel_size=0.02m）

同一个体素内的所有原始点，合并为 1 个体素点
只保留非空体素，实现天然稀疏化，消除重复点、规整空间分布

步骤 3：分层稀疏 3D 卷积下采样（核心！生成超点）

使用 5 层连续的稀疏 3D 卷积（FUSER 标准配置）：

卷积核：3×3×3
步长：2（每一层空间分辨率缩小一半）
每一层执行：空间聚合 + 特征提取 + 下采样

分层过程：

第 1 层：精细体素 → 输出细粒度聚合点
第 2~4 层：步长 2 下采样 → 体素变大，点数减半
第 5 层：最低分辨率 → 最终超点集群

步骤 4：超点输出

最终得到：

超点坐标 S∈RM×3（M≪N，几百～几千）
超点特征 F∈RM×d（d=64/128，几何特征）