论文阅读_VilT

基本信息

项目	内容
论文标题	Learning Visual Language Representation from Web-scale Weak-supervised Data
作者
作者单位	韩国科学技术院（KAIST）
时间	2021
发表会议/期刊

在ViLT之前，主流的视觉-语言模型（如LXMERT, CLIP, ALIGN, UNITER等）通常采用以下架构：

独立的特征提取器：
- 使用一个预训练的视觉编码器（如ResNet或Faster R-CNN）将图像转换为一组区域特征（region features）或网格特征（grid features）。
- 使用一个预训练的文本编码器（如BERT）将文本转换为词向量。
模态融合模块： 将提取出的视觉特征和文本特征送入一个额外的Transformer网络进行跨模态交互和融合。

摒弃了传统多模态模型中复杂的、针对特定任务设计的视觉和语言特征提取器，而是采用了一种极简主义（minimalist） 的设计，直接将原始图像块（image patches）和文本token输入到一个共享的Transformer主干网络中进行联合处理。ViLT使用一个单一的、共享的Transformer编码器来同时处理视觉和语言信息。
通过两种自监督任务在大规模图文对数据集（如Conceptual Captions, SBU Captions）上进行预训练：
1. MLM：随机遮盖输入文本中的一些token（例如15%）。模型的任务是根据未被遮盖的文本和整个图像来预测被遮盖的token。
2. Image-Text Matching (ITM - 图文匹配)

直接输入原始数据：
- 文本： 与BERT相同，将文本分词（Tokenization）后，加上特殊标记（[CLS], [SEP]）和位置编码。
- 图像： 不再使用复杂的CNN或检测器。而是像ViT一样，将输入图像直接分割成固定大小的非重叠图像块（patches）（例如16x16像素），然后将每个图像块通过一个线性投影层（Linear Projection）转换为一个向量。这些向量与文本token向量在维度上对齐。
联合嵌入序列： 将图像块向量序列和文本token向量序列拼接（Concatenate） 起来，形成一个混合的输入序列。
共享的位置编码： 为这个混合序列中的每个元素（无论是图像块还是文本token）分配一个位置编码（Positional Encoding），以保留它们的顺序信息。ViLT探索了不同类型的位置编码（2D空间位置用于图像，1D序列位置用于文本）。
模态类型嵌入（Optional）： 可以添加一个可学习的模态嵌入（Modality Embedding），用来区分一个元素是来自图像还是文本。