论文阅读_FUSER
FUSER: Feed-forward Multiview Registration Transformer
FUSER 没有 “参考点云” 这个概念!
世界坐标系 = 数据集自带的真实全局坐标系(GT 里给的)
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | FUSER: Feed-forward Multiview Registration Transformer |
| 作者 | Haobo Jiang, Ao Shenn, Yu Liang, Jiaxiang Yang, Jianxin Xie |
| 作者单位 | Nanyang Technological University, Alibaba Group, Nankai University, Nanjing University 1. 南洋理工大学 2. 阿里巴巴集团 3. 南开大学 4. 南京大学 |
| 时间 | 2025 |
| 发表会议/期刊 | CVPR |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | 无序、部分重叠的多视角点云集合 |
| 输出 | 每个点云的全局刚性变换(旋转 + 平移) |
| 所属领域 | 三维视觉、多视角点云配准 |
1. 摘要精简
FUSER 是第一个前馈式多视角配准 Transformer,它将所有点云共同编码到一个紧凑的隐空间中,直接预测全局位姿,无需任何两两估计。为了保持可操作性,FUSER 通过稀疏 3D CNN 将每个点云编码为低分辨率超点特征(保留绝对平移线索),并通过几何交替注意力模块进行高效的扫描内和扫描间推理。特别地,他们将现成基础模型中的 2D 注意力先验迁移到 3D 特征交互中,以增强几何一致性。在此基础上,进一步提出 FUSER‑DF,一个在联合 空间上的扩散精炼框架,通过去噪过程校正 FUSER 的估计。实验表明,该方法在 3DMatch、ScanNet 和 ArkitScenes 上实现了卓越的配准精度和计算效率(分钟级→秒级)。
2. 引言出发点
传统多视角点云配准遵循“两两配准 → 全局同步”的两阶段范式:先为每对点云估计相对位姿构建位姿图,再通过位姿同步恢复全局绝对位姿。这种做法存在固有缺陷:
- 缺乏全局上下文:每对配准独立进行,忽略了其他扫描的几何约束,在低重叠或对称场景中会产生歧义;
- 异常值敏感:不准确的两两估计污染位姿同步,导致全局误差传播;
- 计算开销大:冗余的两两配准(特征提取、异常值剔除)非常耗时;
- 强归纳偏置:需要大量手工设计(如图稀疏化、鲁棒损失、同步策略),限制模型灵活性,阻碍全局最优。
为此,本文提出 FUSER,首个端到端前馈式多视角配准 Transformer,直接对所有扫描进行联合推理,一次性输出每个扫描的绝对位姿,避免两两配准及其所有衍生问题。
3. 创新点与相关工作对比
创新点:
- 全新前馈范式:首次将多视角配准转化为一个统一的前馈过程,统一隐空间对所有扫描联合推理直接预测全局位姿,无需两两配准和位姿同步。
- 绝对几何编码:使用保留绝对平移线索的稀疏 3D CNN 编码点云,替代传统相对/平移不变的描述子,使绝对平移回归成为可能。
- 几何交替注意力:在 Transformer 中交替进行扫描内和扫描间消息传递,并创新地利用 2D 基础模型()的注意力先验初始化,实现 2D→3D 跨模态迁移。
- 扩散精炼:在 FUSER 基础上提出 FUSER‑DF,将多视角位姿精炼建模为联合 空间上的去噪扩散过程,利用 FUSER 本身作为代理配准模型构造去噪器,并推导了先验感知的变分下界进行监督。
- 无参考位姿监督策略不直接监督绝对世界坐标系位姿,转而监督相对位姿,保证扫描顺序置换等变性,训练更稳定。
与现有工作的对比及指出的问题:
| 对比方法 | 问题 |
|---|---|
| 传统两阶段方法 (如 EIGSE3、L1-IRLS、RotAvg、LMVR、LITS、HARA、SGHR、MDGD等) |
依赖两两配准,缺乏全局约束,计算冗余,易受异常值影响。 |
| 学习型同步方法(如 LITS、FeatSync) | 仍基于两两配准图,未能摆脱两阶段框架,误差累积难以避免。 |
| 单对配准方法(如 GeoTransformer、Predator、RoITr) | 仅处理两帧,无法直接扩展至多视图,未利用跨扫描几何一致性。 |
| 现有 SE(3) 扩散配准(如 SE(3) diffusion) | 仅处理两两相对位姿估计,未考虑多视图联合扩散。 |
FUSER 通过统一前馈设计完全摆脱了两阶段框架,FUSER‑DF 则将扩散过程扩展到 联合空间,实现多视图协同精炼。
4. 网络架构构成
FUSER 的整体架构如图 2 所示,包含三个核心模块:
- 绝对几何编码器:分层体素化与稀疏卷积,输出低分辨率超点(superpoint)及其特征,保留绝对空间坐标。
- 几何交替注意力模块:由 32 层交替的16 层扫描内注意力 + 16 层扫描间注意力组成,实现局部与全局几何推理。初始化时加载 2D 基础模型 的注意力权重(迁移 2D 先验),并使用超点坐标的正弦位置编码注入绝对位置信息。
- 全局位姿预测头:自注意力 + 全局池化 + 轻量 MLP,对每个扫描的增强超点特征进行全局平均池化,得到扫描级描述子,再通过两个 MLP 头分别回归平移向量和 9D 旋转代理,最后经 SVD 正交化得到有效旋转矩阵。
- FUSER-DF 在 FUSER 之上增加:
- SE(3)N 前向扩散过程:从真实位姿向 FUSER 预测位姿加噪。
- SE(3)N 逆向去噪过程:以 FUSER 为代理模型预测残差位姿,逐步去噪精炼。
5. 数据预处理与点的无序性/稀疏性处理
-
使用 4 大规模室内数据集:3DMatch、ScanNet、ScanNet++、ArkitScenes。
-
输入:每个点云 包含原始 3D 坐标,无额外预处理(如法线、颜色)。
-
预处理:采用稀疏 3D CNN(MinkowskiEngine)进行体素化下采样
-
**超点下采样:**通过5 层稀疏卷积(核 3×3×3,步长 2)生成紧凑的超点,在保留几何结构的同时大幅减少 token 数量,使后续跨扫描注意力可行。
-
无序性处理:交替注意力模块设计为置换等变(通过移除 VGGT 中的参考 token 实现),保证输入扫描顺序改变时输出特征不变。
-
位置编码:对超点坐标使用正弦位置编码,**使用超点坐标的正弦位置编码而非相对位置编码,**避免跨扫描时坐标系混乱。
什么是 “保留绝对平移线索”?
直白解释:不让模型丢失 “这个点云在世界空间里到底在哪” 的位置信息。
- 传统配准网络(如 KPConv、GeoTransformer)都做 相对归一化:把点云移到中心、缩放,只学相对形状,丢掉绝对位置。
- 但 FUSER 要直接预测世界坐标系下的绝对位姿(包括平移 t)所以不能做归一化,必须保留原始坐标。
每个 token 如何编码?
FUSER 不用 2D 的 ROPE,也不用相对位置编码。它用**正弦位置编码(Sinusoidal Positional Encoding)**直接作用在 超点的 3D 坐标 (x,y,z) 上。把坐标映射成高维编码,注入每一层注意力,每个 token = 1 个超点token 信息 =超点坐标的正弦位置编码 + 超点的 CNN 特征
分层体素化(Hierarchical Voxelization)是怎么做的?
FUSER 使用 MinkowskiEngine 稀疏卷积,步骤固定:
- 把原始点云按空间分到体素栅格。
- 第 1 层卷积:体素尺寸小 → 精细特征。
- 第 2–5 层卷积:步长 2 不断下采样 → 体素越来越大。
- 每一层都做:
- 体素化
- 稀疏 3D 卷积
- 输出该层的超点
- 最终输出 最低分辨率、最紧凑的超点集合。
6. 特征提取
- 底层几何特征:绝对几何编码器通过稀疏 3D CNN 提取层次化特征,每层包含 3D 卷积和残差块,最终每个超点获得一个 维特征向量()。输出紧凑超点 与特征
- 上下文增强:几何交替注意力处理输出增强后的超点特征 。
- 扫描内注意力:捕捉局部表面几何。
- 扫描间注意力:建模全局多扫描几何关系。
- 用 π3 预训练权重初始化,迁移 2D 注意力先验。
- 扫描级全局特征:对每个扫描的所有超点特征进行全局平均池化,得到紧凑的扫描描述子,供位姿预测头使用。
7. 如何找到两个点云的匹配关系
FUSER 不显式寻找点对应关系,而是通过注意力机制隐式建模跨扫描几何关联。在几何交替注意力中,扫描间交叉注意力层直接在不同扫描的超点之间进行消息传递,使网络能够学习到哪些超点区域在不同扫描中对应相同的空间结构,从而隐式建立对应关系。最终通过全局位姿回归,网络端到端地预测使所有扫描对齐的位姿。
8. 如何基于匹配关系计算变换关系
超点特征→自注意力 refine→全局平均池化→扫描级描述子,由MLP 头回归:
- 平移 由 MLP 直接输出 3 维向量。
- 旋转由 MLP 输出 9 维代理,再通过 SVD 正交化投影到 得到 。
网络通过全局损失(见第 10 节)间接学习从超点特征到位姿的映射,该映射隐含了跨扫描几何一致性约束。
9. 完整流程:输入到输出
- 输入:个无序点云 。
- 绝对几何编码:每个点云经稀疏 3D CNN 生成超点集合 及其特征 。
- 几何交替注意力:将所有超点及其特征输入 层交替注意力(先扫描内自注意力,后扫描间交叉注意力),获得增强特征 。
- 全局位姿预测:对每个扫描,对其所有超点的增强特征进行全局平均池化,得到扫描级描述子;然后分别通过两个 MLP 预测平移 和 9D 旋转代理,旋转代理经 SVD 正交化得到 。
- 输出:每个扫描的全局位姿 。
对于 FUSER‑DF,在 FUSER 输出基础上,再通过 扩散精炼模块(以 FUSER 为代理去噪器)迭代优化位姿。
10. 损失函数
训练 FUSER 时,采用参考帧无关的成对相对位姿监督,避免全局坐标系不一致问题。对任意 ,计算预测相对变换 与真值 之间的损失:
- 旋转测地线损失:
- 平移 Huber 损失():
- 点一致性损失(将源点云变换到目标坐标系后计算 L1 距离):
总损失为所有有序对(的平均:
对于 FUSER‑DF 的训练,利用推导的先验感知变分下界,核心是先验感知去噪匹配项,其本质上等同于使用 FUSER 预测的残差位姿 来监督,因此可以使用与上述相同的成对损失函数来训练代理去噪器(即 FUSER 本身)。
11. 测试数据集
- ScanNet:1,513 个室内 RGB-D 序列,用于训练和测试。测试时采用 32 个序列,每个序列 30 帧(间隔 20 帧)。指标:旋转误差/平移误差的累积分布(ECDF)。
- 3DMatch:8 个室内场景测试集。构造 60 帧序列(间隔 20 帧),不使用 TSDF 融合的片段,直接使用原始单帧以模拟真实低重叠情况。指标:配准召回率(RR,阈值 $15^\circ)/0.3m)、平均旋转/平移误差。
- ArkitScenes:室内 LiDAR 数据,随机选取 15 个序列,每个序列 200 帧(间隔 3 帧)。指标同 3DMatch。
- 训练集:使用 3DMatch、ScanNet、ScanNet++、ArkitScenes 的合并训练数据,共 2 个 epoch。
12. 消融实验测试的组件
- 2D 注意力先验迁移:对比使用随机初始化与加载 预训练权重的效果,证明 2D 先验显著提升精度。
- 数据规模的影响:逐步增加训练数据量(从仅 ScanNet 到合并四个数据集),观察性能增益,验证模型的可扩展性。
- 运行时与内存分析:对比两阶段方法(FCGF, Predator, YOHO, GeoTrans, PARENet 等)与 FUSER/FUSER‑DF 的推理时间,显示前馈范式的秒级效率。
- 消融设计细节(文中隐含):交替注意力的层数、是否使用绝对坐标编码、是否置换等变等(在正文中简要提及,如移除 VGGT 的参考 token 以实现置换等变,使用正弦位置编码替代相对位置编码的实验对比)。
其他创新点
- 扩散精炼框架:将多视角位姿精炼建模为联合流形上的去噪过程,并推导先验感知的变分下界,使得可以利用 FUSER 本身作为代理模型进行训练,显著提升 FUSER 输出的精度。
- 置换等变的交替注意力:通过移除 VGGT 中的参考 token,使模块对输入扫描顺序不敏感,保证了模型在不同顺序下的输出一致性。
- 2D→3D 注意力先验迁移:首次验证了 2D 视觉基础模型的注意力权重可直接初始化 3D 点云 Transformer 并带来增益,为跨模态基础模型研究提供了新思路。
稠密点 → 稀疏超点:完整实现流程
前馈配准网络(FUSER 标准方案) 统一使用:
稀疏 3D CNN + 分层体素化下采样
(基于 Minkowski Engine 稀疏卷积库,代码可直接复现)
完整步骤(逐行对应实现)
步骤 1:原始稠密点云输入
输入:无序、稠密、带世界坐标的点云 P∈RN×3N:几万~几百万(冗余、稀疏、无序)
步骤 2:稀疏体素化(空间网格化)
将 3D 空间划分为固定大小的体素栅格(如 voxel_size=0.02m)
- 同一个体素内的所有原始点,合并为 1 个体素点
- 只保留非空体素,实现天然稀疏化,消除重复点、规整空间分布
步骤 3:分层稀疏 3D 卷积下采样(核心!生成超点)
使用 5 层连续的稀疏 3D 卷积(FUSER 标准配置):
- 卷积核:3×3×3
- 步长:
2(每一层空间分辨率缩小一半) - 每一层执行:空间聚合 + 特征提取 + 下采样
分层过程:
- 第 1 层:精细体素 → 输出细粒度聚合点
- 第 2~4 层:步长 2 下采样 → 体素变大,点数减半
- 第 5 层:最低分辨率 → 最终超点集群
步骤 4:超点输出
最终得到:
- 超点坐标 S∈RM×3(M≪N,几百~几千)
- 超点特征 F∈RM×d(d=64/128,几何特征)


