论文阅读_VilT
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | Learning Visual Language Representation from Web-scale Weak-supervised Data |
| 作者 | |
| 作者单位 | 韩国科学技术院(KAIST) |
| 时间 | 2021 |
| 发表会议/期刊 |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | |
| 输出 | |
| 所属领域 |
背景
在ViLT之前,主流的视觉-语言模型(如LXMERT, CLIP, ALIGN, UNITER等)通常采用以下架构:
- 独立的特征提取器:
- 使用一个预训练的视觉编码器(如ResNet或Faster R-CNN)将图像转换为一组区域特征(region features)或网格特征(grid features)。
- 使用一个预训练的文本编码器(如BERT)将文本转换为词向量。
- 模态融合模块: 将提取出的视觉特征和文本特征送入一个额外的Transformer网络进行跨模态交互和融合。
创新点
- 摒弃了传统多模态模型中复杂的、针对特定任务设计的视觉和语言特征提取器,而是采用了一种极简主义(minimalist) 的设计,直接将原始图像块(image patches)和文本token输入到一个共享的Transformer主干网络中进行联合处理。ViLT使用一个单一的、共享的Transformer编码器来同时处理视觉和语言信息。
- 通过两种自监督任务在大规模图文对数据集(如Conceptual Captions, SBU Captions)上进行预训练:
- MLM:随机遮盖输入文本中的一些token(例如15%)。模型的任务是根据未被遮盖的文本和整个图像来预测被遮盖的token。
- Image-Text Matching (ITM - 图文匹配)
方法细节
- 直接输入原始数据:
- 文本: 与BERT相同,将文本分词(Tokenization)后,加上特殊标记([CLS], [SEP])和位置编码。
- 图像: 不再使用复杂的CNN或检测器。而是像ViT一样,将输入图像直接分割成固定大小的非重叠图像块(patches)(例如16x16像素),然后将每个图像块通过一个线性投影层(Linear Projection)转换为一个向量。这些向量与文本token向量在维度上对齐。
- 联合嵌入序列: 将图像块向量序列和文本token向量序列拼接(Concatenate) 起来,形成一个混合的输入序列。
- 共享的位置编码: 为这个混合序列中的每个元素(无论是图像块还是文本token)分配一个位置编码(Positional Encoding),以保留它们的顺序信息。ViLT探索了不同类型的位置编码(2D空间位置用于图像,1D序列位置用于文本)。
- 模态类型嵌入(Optional): 可以添加一个可学习的模态嵌入(Modality Embedding),用来区分一个元素是来自图像还是文本。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen!


