Sonata

Sonata: Reliable 3D Self-Supervised Learning for Point Clouds

基本信息

项目	内容
论文标题	Sonata: Reliable 3D Self-Supervised Learning for Point Clouds
作者	Xiaoyang Wu, Daniel DeTone, Duncan Frost, Tianwei Shen, Chris Xie, Nan Yang, Jakob Engel, Richard Newcombe, Hengshuang Zhao, Julian Straub
作者单位	1. 香港大学 2. Meta Reality Labs Research
时间	2024 (推测)
发表会议/期刊	arXiv preprint / 待发表 (推测)

方法概览

特点	文章性质
输入	场景级点云集合（室内/室外）
输出	每个点的密集特征表示（可用于下游任务）
所属领域	三维自监督学习、点云表示学习

1. 摘要精简

本文探讨是否可以获得一个可靠的点云自监督模型，该模型能够通过简单的线性探测（linear probing）直接用于多种3D任务，即使数据有限且计算量极小。研究发现现**有3D自监督方法在线性探测评估下表现不佳，原因是存在“几何捷径”（geometric shortcut）——模型倾向于塌陷到低层次的几何线索（如法向、高度）。该问题源于点云数据的稀疏性。**为此，Sonata 通过两个核心策略解决：模糊空间信息、增强对输入特征的依赖，并在 14 万场景点云上进行自蒸馏训练。Sonata 学习到的表示强健可靠：零样本可视化展示了语义分组和空间对应能力。

结合点自蒸馏与大规模数据训练，在仅用少于 0.2% 参数做线性探测的条件下，将 ScanNet 语义分割 mIoU 从 21.8% 提升至 72.5%；同时抛弃 U-Net 解码器，实现无解码器的多尺度表征学习，在室内外各类 3D 感知任务上达到 SOTA，兼具极高的数据与参数效率。

2. 引言出发点

图像自监督学习已发展出可靠的基础模型，单层线性层即可接近全微调性能，并且通过可视化可以直观感受语义。

然而在点云领域，现有自监督方法在线性探测上表现很差（最高仅 21.8% mIoU），远低于从零训练（77.6%）。

作者识别出核心障碍是“几何捷径”：**模型过早利用易获取的低级几何信息（如法向、高度）而塌陷，无法学习高级语义。**该问题源于点云数据中坐标信息直接参与算子运算，难以遮蔽。现有方法依赖 U-Net 架构，编码器与解码器强耦合，解码器强制恢复高分辨率点特征，进一步加剧几何捷径问题。因此需要专门设计策略来迫使模型摆脱几何捷径，学习真正可迁移的表示。

3. 创新点与相关工作对比

创新点：

识别并命名“几何捷径”：首次系统分析点云自监督中模型塌陷到低级几何线索的问题，并量化其对线性探测性能的影响。
双管齐下的微设计：通过模糊空间信息（去除解码器、对掩蔽点加噪）和增强特征依赖（特征上投射、渐进式难度调度）来对抗几何捷径。
自蒸馏框架：基于 DINOv2 思想，采用 Sinkhorn-Kopp 中心化、KoLeo 正则化和聚类分配，构造 EMA 教师 - 学生结构，结合局部视图、全局视图、掩码视图的多尺度对齐，提升任务难度以强化表征学习。
去解码器预训练：仅编码器参与自监督学习，抛弃 U-Net 解码器，仅使用编码器训练，减少细粒度空间信息泄露，同时提升特征维度与表征能力，线性探测性能大幅提升。
大规模多源预训练：汇集 14 万场景点云（涵盖真实与合成数据），实现数据规模 86.7 倍于 PointContrast，5.9 倍于 PPT。

与相关工作对比及指出的问题：

对比方法	问题
PointContrast (PC) [93]	线性探测仅 5.6% mIoU，表示塌陷到表面法向
Masked Scene Contrast (MSC) [88]	线性探测 21.8% mIoU，仍过度依赖高度等几何线索
CSC [38]	塌陷到法向，语义不足
图像自监督模型（DINOv2）	将2D特征提升到3D可达到 63.1% mIoU，表明3D自监督有巨大提升空间
U-Net 结构自监督	解码器强制保留原始分辨率特征，引入几何捷径；Sonata 仅用编码器
PPT [90]	多数据集联合训练，但未解决几何捷径；Sonata 在此基础增加对抗几何捷径的设计

4. 网络架构构成

**Sonata 基于 Point Transformer V3 (PTv3) 构建，但移除了其 U-Net 风格解码器，仅保留编码器部分。**编码器包含多个阶段的 Transformer 块，输出多尺度特征。在预训练后，可根据下游任务附加轻量级解码器或线性层。

主干编码器结构：PTv3 分层编码器，深度为 [3,3,3,12,3]，宽度为 [48,96,192,384,512]，总参数量 108M（可缩放），BN 替换为 LN 以适配多域训练。
自蒸馏框架：学生网络（编码器+投影头）处理局部视图和掩蔽视图，教师网络（动量更新的编码器+投影头）处理全局视图。教师提供稳定目标，通过对比聚类分配进行蒸馏。
特征上投射模块：无参多尺度特征融合，将深层粗粒度特征上投射拼接浅层特征，保留多尺度上下文。
预测头：在线聚类头，用于自蒸馏的相似度计算与聚类分配。
视图生成：全局视图（采样 40%~100% 点）、局部视图（采样 5%~40% 点）、掩蔽视图（基于全局视图随机掩蔽网格块）。

5. 数据预处理与点的无序性/稀疏性处理

数据来源：汇集 14 万场景级点云，包括真实数据集（ScanNet, ScanNet++, S3DIS, ArkitScenes, HM3D）和合成数据集（Structured3D, ASE）。总规模 86.7× PointContrast。
预处理：点云坐标归一化到单位球内？未明确提及，但通常 PTv3 需要体素化（voxelization）处理稀疏性。文中提及使用稀疏卷积和 Transformer 处理点云，保留原始坐标作为输入特征的一部分。
增强
1. 视图生成：2 个全局视图（40%~100% 采样）、4 个局部视图（5%~40% 采样）、2 个掩码视图（基于全局视图随机块掩码）。
2. 空间增强：随机裁剪、旋转、扭曲；掩码点额外施加高斯抖动（σ=0.01）。
3. 光度增强：颜色、法向量随机扰动。
无序性处理：PTv3 本身具有置换等变性（通过排序或池化），Sonata 的蒸馏损失基于原始坐标空间中的近邻匹配，确保特征对齐不受点序影响。
稀疏性处理：采用 PTv3 的体素化与稀疏注意力机制，有效处理大规模稀疏点云。

6. 特征提取

编码器：**PTv3 对每个点（或体素）提取层次化特征，输出多尺度特征图。**编码器不含解码器，因此最终特征是在下采样后的点（超点）上的高维向量（通道数随阶段增加）。
投影头：将编码器输出映射到蒸馏特征空间（通常 256 或 512 维），用于计算对比损失。
特征复用：在下游任务中，可以通过上投射（up-casting）将多尺度特征合并到原始分辨率，用于密集预测。

7. 如何找到两个点云的匹配关系

Sonata 不涉及点云间的匹配。其目标是学习单一点云的每个点的特征表示，不建立跨点云的对应关系。因此该问题不适用。

8. 如何基于两个点云的匹配关系计算点云之间的变换关系

Sonata 不计算点云间的变换。预训练任务是自监督特征学习，不涉及配准或变换估计。

9. 完整流程：输入点云到输出特征

输入：单个点云 $ \mathbf{S} $（包含坐标和可能的颜色/强度特征）。
视图生成：对输入点云进行随机裁剪、旋转、抖动等增强，生成 2 个全局视图、4 个局部视图；对全局视图进一步随机掩蔽生成 2 个掩蔽视图。
编码：局部视图和掩蔽视图输入学生编码器，全局视图输入教师编码器（教师参数为学生参数的指数移动平均）。
特征投影：编码器输出经投影头映射到特征空间。
匹配与蒸馏：根据原始坐标空间中的最近邻，将局部/掩蔽视图中的点与全局视图中的点匹配，要求学生特征接近教师特征（通过 Sinkhorn 中心化和交叉熵损失）。
输出：预训练完成后，可提取任意点云的编码器中间层特征，用于下游任务（分类、分割、检测等）。

10. 损失函数

采用自蒸馏损失，基于 SwAV 的聚类分配。对每个匹配的点对 $(i, j)$ ，损失为：

\mathcal{L} = -\frac{1}{N} \sum_{(i,j)} \sum_{k} \mathbf{Q}_j^{(k)} \log \mathbf{P}_i^{(k)}

其中 $\mathbf{P}_i$ 是学生特征经 softmax 得到的概率分布（温度 $\tau_s$ ）， $\mathbf{Q}_j$ 是教师特征经 Sinkhorn-Knopp 中心化后锐化的目标分布（温度 $\tau_t$ ）。同时加入 KoLeo 正则化项以促进特征均匀性。总损失为所有视图对的加权和。

11. 测试数据集

ScanNet (V2)：1,513 个室内场景，用于语义分割、实例分割评估。
ScanNet200：200 类精细标注版本。
ScanNet++：高保真室内数据集。
S3DIS：6 个区域 271 个房间，语义分割。
nuScenes / Waymo / SemanticKITTI：户外自动驾驶数据集，用于评估 outdoor 语义分割。
AEO (Aria Everyday Objects)：用于评估分布外（OOD）泛化能力，22 个稀疏 SLAM 点云。

Sonata 未新造数据集，而是整合现有数据形成 14 万场景的预训练集合（见表 1）。

12. 消融实验测试的组件

去解码器的影响：对比包含解码器与仅编码器预训练，线性探测从 20.7% 升至 60.4%。
特征上投射次数：上投射 2 次取得最佳平衡（过多则几何捷径复现）。
掩蔽点额外抖动：对掩蔽点加高斯噪声（ $\sigma=0.01$ ）提升鲁棒性。
渐进式参数调度：逐步增加掩蔽尺寸/比例、教师温度、权重衰减，验证其效果。
数据规模：从 23k 逐步扩至 140k，线性探测性能持续提升。
2D 特征融合：将 Sonata 与 DINOv2 特征结合，性能进一步提升（76.4% mIoU），表明两者互补。

其他创新点

零样本可视化：通过 PCA、K-means 和跨场景最近邻匹配，直观展示 Sonata 特征的语义分组和空间对应能力。
跨场景泛化：在 HM3D 大型房屋点云上，Sonata 能够跨房间保持语义一致性（图 8）。
表面重建扩展：利用冻结的 Sonata 特征通过可学习解码器回归 TSDF，表明其蕴含几何先验（附录 B.2）。