基本信息

项目 内容
论文标题 Very Deep Convolutional Networks for Large-Scale Image Recognition_
作者
作者单位 牛津大学 Visual Geometry Group(VGG)
时间 2014
发表会议/期刊

方法概览

特点 文章性质
输入 单张 RGB 图像
输出 分类、分割
所属领域 视觉 Transformer

创新点

  1. 证明了网络深度对性能的重要性,提出了结构简洁、可复用的“小卷积核堆叠”设计范式。AlexNet(8 层)卷积核大(11×11, 5×5),难以扩展
  2. 所有卷积层都使用 3×3 卷积核,步长为 1,填充为 1
  3. 多个 3×3 卷积堆叠可以模拟大感受野,减少参数,增加非线性(更多 ReLU):
    1. 两个 3×3 卷积 ≈ 一个 5×5 卷积(感受野 5×5)
    2. 三个 3×3 卷积 ≈ 一个 7×7 卷积(感受野 7×7)
  4. VGG 探索了从 11 层到 19 层的多种网络结构。
  5. 使用 ReLU 和 Dropout,- 随机裁剪、水平翻转、色彩扰动。