基本信息

项目 内容
论文标题 Learning Visual Language Representation from Web-scale Weak-supervised Data
作者
作者单位 韩国科学技术院(KAIST)
时间 2021
发表会议/期刊

方法概览

特点 文章性质
输入
输出
所属领域

背景

在ViLT之前,主流的视觉-语言模型(如LXMERT, CLIP, ALIGN, UNITER等)通常采用以下架构:

  1. 独立的特征提取器:
    • 使用一个预训练的视觉编码器(如ResNet或Faster R-CNN)将图像转换为一组区域特征(region features)或网格特征(grid features)。
    • 使用一个预训练的文本编码器(如BERT)将文本转换为词向量。
  2. 模态融合模块: 将提取出的视觉特征和文本特征送入一个额外的Transformer网络进行跨模态交互和融合。

创新点

  1. 摒弃了传统多模态模型中复杂的、针对特定任务设计的视觉和语言特征提取器,而是采用了一种极简主义(minimalist) 的设计,直接将原始图像块(image patches)和文本token输入到一个共享的Transformer主干网络中进行联合处理。ViLT使用一个单一的、共享的Transformer编码器来同时处理视觉和语言信息。
  2. 通过两种自监督任务在大规模图文对数据集(如Conceptual Captions, SBU Captions)上进行预训练:
    1. MLM:随机遮盖输入文本中的一些token(例如15%)。模型的任务是根据未被遮盖的文本和整个图像来预测被遮盖的token。
    2. Image-Text Matching (ITM - 图文匹配)

方法细节

  • 直接输入原始数据:
    • 文本: 与BERT相同,将文本分词(Tokenization)后,加上特殊标记([CLS], [SEP])和位置编码。
    • 图像: 不再使用复杂的CNN或检测器。而是像ViT一样,将输入图像直接分割成固定大小的非重叠图像块(patches)(例如16x16像素),然后将每个图像块通过一个线性投影层(Linear Projection)转换为一个向量。这些向量与文本token向量在维度上对齐。
  • 联合嵌入序列: 将图像块向量序列和文本token向量序列拼接(Concatenate) 起来,形成一个混合的输入序列。
  • 共享的位置编码: 为这个混合序列中的每个元素(无论是图像块还是文本token)分配一个位置编码(Positional Encoding),以保留它们的顺序信息。ViLT探索了不同类型的位置编码(2D空间位置用于图像,1D序列位置用于文本)。
  • 模态类型嵌入(Optional): 可以添加一个可学习的模态嵌入(Modality Embedding),用来区分一个元素是来自图像还是文本。