论文阅读_GPT
基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | Improving Language Understanding by Generative Pre-training(GPT-1 |
| 作者 | |
| 作者单位 | OpenAI |
| 时间 | 2018 |
| 发表会议/期刊 | |
| 论文别名 | Generative Pre-trained Transformer |
| 模型 | 年份 | 论文标题 | 参数量 | 训练数据 | 核心贡献 |
|---|---|---|---|---|---|
| GPT-1 | 2018 | Improving Language Understanding by Generative Pre-Training | ~1.17 亿 | BookCorpus | 提出 预训练 + 微调 范式 |
| GPT-2 | 2019 | Language Models are Unsupervised Multitask Learners | 1.5 亿 → 15 亿 | WebText | 提出 零样本迁移(Zero-shot Transfer) |
| GPT-3 | 2020 | Language Models are Few-Shot Learners | 1.75 亿 → 1750 亿 | CommonCrawl 等 | 证明 小样本/零样本学习 的强大能力 |
方法概览
| 特点 | 文章性质 |
|---|---|
| 输入 | |
| 输出 | |
| 所属领域 |
GPT1创新点
- 提出 自回归语言模型 + 微调 范式
- 阶段一:无监督预训练在大量无标签文本上训练一个通用语言模型预测下一个词(自回归)
- 阶段二:有监督微调在特定任务(如分类、问答)上用少量标注数据微调整个模型,需修改模型结构,只需添加简单任务头
- GPT是只有Decoder,去掉了 Encoder-Decoder Attention,通过“从左到右”的自回归方式生成文本**。单向上下文(Unidirectional Context)
- 一种预训练任务:
- 预训练任务:语言模型(LM)给定前面的词,预测下一个词,每个词只能看到前面的词(因果掩码Causal Mask),适合文本生成。
- 预训练后,无需微调,仅靠提示(Prompt)即可完成任务。GPT-3 后更倾向于“提示工程”而非微调
- 常见版本:
- GPT-1:12 层,1.17亿参数
- GPT-2:48 层,15亿参数
- GPT-3:96 层,1750亿参数
- GPT-4:超大规模(未公开)
- 大模型 + Prompting + Agent 成为主流(如 ChatGPT),大多数现代 LLM(如 LLaMA、ChatGLM)基于 GPT 架构
GPT2创新点
- “零样本迁移”(Zero-shot Transfer)不微调、不修改模型结构,仅通过输入 prompt,让模型直接完成任务
GPT2创新点
- 证明 大规模语言模型具备强大的小样本(few-shot)、单样本(one-shot)、零样本(zero-shot)学习能力。所有“学习”都在 推理时 通过 prompt 完成模型参数不更新,完全依赖上下文中的示例
- 零样本(Zero-shot):只给任务描述
- 单样本(One-shot):给一个例子
- 小样本(Few-shot):给多个例子(论文中用 10–100 个)
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen!



