论文阅读_Bert
BERT
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding |
| 作者 | |
| 作者单位 | Google AI |
| 时间 | 2018 |
| 发表会议/期刊 | |
| 论文别名 | Bidirectional Encoder Representations from Transformers |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | |
| 输出 | |
| 所属领域 |
创新点
- 首次实现真正的双向上下文(Bidirectional Context)理解,大幅提升 NLP 任务性能。
- 基于 Transformer Encoder(仅 Encoder),一个句子挖掉一部分预测挖掉的部分进行训练,这样训练出来的模型微调之后可用于下游任务,这种思想并没有延续,而是用于T5等网络(而GPT是只有Decoder,通过“从左到右”的自回归方式生成文本。)
- 两种预训练任务:
- **Masked Language Model (MLM)**随机遮盖输入中的某些词,让模型预测被遮盖的词。
- Next Sentence Prediction (NSP)判断两个句子是否连续
- 预训练后,只需在下游任务(如分类、问答)上微调,下游任务只需加一个输出层,无需复杂特征工程。衍生出 RoBERTa、ALBERT、SpanBERT 等
- 输入:
[CLS] + 句子A + [SEP] + 句子B + [SEP][CLS]:用于分类任务的特殊标记[SEP]:分隔符
- 常见版本:
- BERT-Base:12 层,768 维,12 个注意力头,1.1亿参数
- BERT-Large:24 层,1024 维,16 个头,3.4亿参数
- BERT 思想融入 T5、BART 等 Encoder-Decoder 模型
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen!


