基本信息

项目 内容
论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale
作者 Kaiming He(何恺明)、Xiangyu Zhang、Shaoqing Ren、Jian Sun(微软亚洲研究院)
作者单位 Google Research
时间 2020
发表会议/期刊
全称 Vision Transformer

方法概览

特点 文章性质
输入 单张 RGB 图像
输出 分类
所属领域

CNN 存在一些局限:

问题 说明
局部感受野 卷积核只能看到局部区域,难以建模长距离依赖
归纳偏置过强 平移不变性、局部性等假设可能限制模型表达能力
难以扩展 模型变大时性能提升有限

创新点

  1. 首次成功地将 纯 Transformer 架构 直接应用于图像分类任务

网络架构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
输入图像 (224x224x3) 

分割成 16x16 的小块 → 14x14 = 196 个 patch

每个 patch 展平 → 196 个 768 维向量("视觉词元")

加上位置编码(Position Embedding)

添加一个可学习的分类 token[CLS](类似 BERT,训练时候CLS是给的,预测时候CLS随机值)

输入标准 Transformer Encoder

取[CLS] token 输出用于分类

通过一个 LayerNorm

输入MLP输出类别概率(D → D/4 → num_classes)

ViT 的局限

问题 说明
❌ 小数据性能差 在 ImageNet 上需大规模预训练才能超越 ResNet
❌ 计算量大 Self-Attention 复杂度为 O(N²),对高分辨率图像不友好
❌ 缺乏局部归纳偏置 需要数据来学习“邻近 patch 更相关”这一常识
❌ 位置编码敏感 插值位置编码可能导致性能下降

后续发展:

方法 解决的问题
**DeiT **(Facebook) 小数据训练(引入蒸馏 token)
**Swin Transformer **(MSRA)最成功 高分辨率 + 局部注意力(滑动窗口)
**PVT **(清华) 多尺度 + 金字塔结构
T2T-ViT 更好的 tokenization(层层聚合)
ConViT 引入卷积先验(soft convolutional inductive bias)
CvT 卷积 + Transformer 混合
MobileViT 轻量化,适合移动端