论文阅读_ViT
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | An Image is Worth 16x16 Words: Transformers for Image Classification at Scale |
| 作者 | Kaiming He(何恺明)、Xiangyu Zhang、Shaoqing Ren、Jian Sun(微软亚洲研究院) |
| 作者单位 | Google Research |
| 时间 | 2020 |
| 发表会议/期刊 | |
| 全称 | Vision Transformer |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | 单张 RGB 图像 |
| 输出 | 分类 |
| 所属领域 |
CNN 存在一些局限:
| 问题 | 说明 |
|---|---|
| 局部感受野 | 卷积核只能看到局部区域,难以建模长距离依赖 |
| 归纳偏置过强 | 平移不变性、局部性等假设可能限制模型表达能力 |
| 难以扩展 | 模型变大时性能提升有限 |
创新点
- 首次成功地将 纯 Transformer 架构 直接应用于图像分类任务
网络架构
1 | 输入图像 (224x224x3) |
ViT 的局限
| 问题 | 说明 |
|---|---|
| ❌ 小数据性能差 | 在 ImageNet 上需大规模预训练才能超越 ResNet |
| ❌ 计算量大 | Self-Attention 复杂度为 O(N²),对高分辨率图像不友好 |
| ❌ 缺乏局部归纳偏置 | 需要数据来学习“邻近 patch 更相关”这一常识 |
| ❌ 位置编码敏感 | 插值位置编码可能导致性能下降 |
后续发展:
| 方法 | 解决的问题 |
|---|---|
| **DeiT **(Facebook) | 小数据训练(引入蒸馏 token) |
| **Swin Transformer **(MSRA)最成功 | 高分辨率 + 局部注意力(滑动窗口) |
| **PVT **(清华) | 多尺度 + 金字塔结构 |
| T2T-ViT | 更好的 tokenization(层层聚合) |
| ConViT | 引入卷积先验(soft convolutional inductive bias) |
| CvT | 卷积 + Transformer 混合 |
| MobileViT | 轻量化,适合移动端 |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen!


