基本信息

项目 内容
论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale
作者 Kaiming He
作者单位 Google Research
时间 2021
发表会议/期刊 ICCV 2021
全称 Masked Autoencoders,cv中的bert

方法概览

特点 文章性质
输入 单张 RGB 图像
输出 分类
所属领域

在 MAE 之前,视觉自监督学习主要有两类方法:

  1. 对比学习(Contrastive Learning)如 SimCLR、MoCo:通过“拉近正样本,推远负样本”学习,需要精心设计数据增强和负样本
  2. 生成式建模如 VAE、iGPT:重建完整图像,计算成本高,关注低级细节(如像素)
  3. 能否像 BERT 一样,用掩码重建(Masked Reconstruction)来学习视觉表征?BERT 成功的关键是:掩码掉 15% 的词。直接套用到图像上效果差,因为图像比文本更“连续”像素级重建太容易。 所以MAE思想是:重建一整个块,并且大量掩码75% ~ 95%

创新点

  1. 自监督学习,在 ImageNet 等基准上取得了远超之前方法的性能,推动了视觉自监督学习进入“大规模预训练”时代
  2. 高比例随机掩码(High Ratio of Random Masking)只保留 5%~25% 的 patch 作为输入,强迫模型必须从极小的可见信息中推断全局语义
  3. 非对称编解码器结构(Asymmetric Encoder-Decoder)
    1. Encoder:只处理可见的 patch(轻量)
    2. Decoder:接收 encoder 输出 + 掩码 token,重建所有像素

网络架构

训练阶段

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
输入图像 

├── 分块(Patchify)→ 14x14 = 196 个 patch (16x16)

├── 随机打乱196 个 patch 的顺序

├── 保留前K个作为可见 patch。可见 patch(25%)

├── 可见 patch →线性嵌入768 维 →可学习位置编码 → Encoder → ViT输出K个上下文化的特征向量
│ ↓
└── 掩码 patch → 随机初始化的 mask token+位置编码 → 拼接回196个特征向量

所有 token+位置编码

Decoder(轻量 ViT)

196 个向量

一个线性层

映射回 16×16×3 = 768维

像素级重建

求MSE loss,只有mask部分

推理阶段(微调)

只保留 encode。在 encoder 输出(如 [CLS] 或全局平均池化)上加分类头。在 ImageNet 等数据集上微调