论文阅读_MAE
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | An Image is Worth 16x16 Words: Transformers for Image Classification at Scale |
| 作者 | Kaiming He |
| 作者单位 | Google Research |
| 时间 | 2021 |
| 发表会议/期刊 | ICCV 2021 |
| 全称 | Masked Autoencoders,cv中的bert |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | 单张 RGB 图像 |
| 输出 | 分类 |
| 所属领域 |
在 MAE 之前,视觉自监督学习主要有两类方法:
- 对比学习(Contrastive Learning)如 SimCLR、MoCo:通过“拉近正样本,推远负样本”学习,需要精心设计数据增强和负样本
- 生成式建模如 VAE、iGPT:重建完整图像,计算成本高,关注低级细节(如像素)
- 能否像 BERT 一样,用掩码重建(Masked Reconstruction)来学习视觉表征?BERT 成功的关键是:掩码掉 15% 的词。直接套用到图像上效果差,因为图像比文本更“连续”像素级重建太容易。 所以MAE思想是:重建一整个块,并且大量掩码75% ~ 95%
创新点
- 自监督学习,在 ImageNet 等基准上取得了远超之前方法的性能,推动了视觉自监督学习进入“大规模预训练”时代
- 高比例随机掩码(High Ratio of Random Masking)只保留 5%~25% 的 patch 作为输入,强迫模型必须从极小的可见信息中推断全局语义
- 非对称编解码器结构(Asymmetric Encoder-Decoder)
- Encoder:只处理可见的 patch(轻量)
- Decoder:接收 encoder 输出 + 掩码 token,重建所有像素
网络架构
训练阶段
1 | 输入图像 |
推理阶段(微调)
只保留 encode。在 encoder 输出(如 [CLS] 或全局平均池化)上加分类头。在 ImageNet 等数据集上微调
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen!


