BERT

基本信息

项目 内容
论文标题 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
作者
作者单位 Google AI
时间 2018
发表会议/期刊
论文别名 Bidirectional Encoder Representations from Transformers

方法概览

特点 文章性质
输入
输出
所属领域

创新点

  1. 首次实现真正的双向上下文(Bidirectional Context)理解,大幅提升 NLP 任务性能。
  2. 基于 Transformer Encoder(仅 Encoder),一个句子挖掉一部分预测挖掉的部分进行训练,这样训练出来的模型微调之后可用于下游任务,这种思想并没有延续,而是用于T5等网络(而GPT是只有Decoder,通过“从左到右”的自回归方式生成文本。)
  3. 两种预训练任务
    1. **Masked Language Model (MLM)**随机遮盖输入中的某些词,让模型预测被遮盖的词。
    2. Next Sentence Prediction (NSP)判断两个句子是否连续
  4. 预训练后,只需在下游任务(如分类、问答)上微调,下游任务只需加一个输出层,无需复杂特征工程。衍生出 RoBERTa、ALBERT、SpanBERT 等
  5. 输入:[CLS] + 句子A + [SEP] + 句子B + [SEP]
    • [CLS]:用于分类任务的特殊标记
    • [SEP]:分隔符
  6. 常见版本:
    1. BERT-Base:12 层,768 维,12 个注意力头,1.1亿参数
    2. BERT-Large:24 层,1024 维,16 个头,3.4亿参数
  7. BERT 思想融入 T5、BART 等 Encoder-Decoder 模型