一、LLM 的发展历程(按时代划分)
阶段 1:统计语言模型时代(1990s–2017)
这是 LLM 的“石器时代”,AI 不懂真正的语言,只能做数学统计。
代表模型
- n-gram 语言模型(Google、IBM 等)
- Word2Vec(2013,Google)
- GloVe(2014,Stanford)
- RNN / LSTM / GRU 语言模型(2014–2017)
特点
- 靠概率计算词序列
- 记忆短、不能长文本
- 不理解上下文
- 算不上“现代 LLM”
阶段 2:预训练 + 微调时代(2018 – 2020)
这是现代 LLM 的起点,标志性突破是Transformer 架构。
关键论文
2017:Attention is All You Need(Google)
这是 LLM 的“总祖宗”。
代表模型(按时间)
1. ELMo(2018,AI2)
第一个双向语言表示模型。
2. BERT(2018,Google)
革命性突破,理解能力极强。
3. GPT-1(2018,OpenAI)
首次提出“生成式预训练 + 下游微调”路线。
4. GPT-2(2019,OpenAI)
第一次展示长文本生成能力,震惊世界。
5. T5(2019,Google)
将所有任务统一为“文本到文本”。
6. RoBERTa(2019,Meta)
优化后的更强 BERT。
特点
- 需要针对每个任务做微调
- 模型规模比以前大了 100 倍
- LLM 时代开始露出雏形
阶段 3:大规模生成式 LLM(2020 – 2022)
真正意义上的 LLM 时代,从 GPT-3 开始。
代表模型
1. GPT-3(2020,OpenAI)
- 175B 参数
- 少样本学习(few-shot learning)出现
- 第一款真正意义的大型语言模型
2. GPT-J / GPT-NeoX(EleutherAI)
- 开源替代 GPT-3 的路线
3. PaLM(2022,Google)
- 540B 参数
- 多语言、多任务能力增强
4. BLOOM(2022,HuggingFace)
- 大型开源 LLM
特点
- 模型规模爆炸式增长
- 不需要微调,也能完成任务
- AI 开始具备“泛化能力”
阶段 4:对齐训练 + RLHF + ChatGPT 时代(2022 – 至今)
这是 LLM 的“普及时代”。
代表模型
1. ChatGPT(GPT-3.5 + RLHF)(2022,OpenAI)
- 人类反馈强化学习(RLHF)
- AI 第一次可以自然对话
- 全球普及
2. GPT-4(2023,OpenAI)
- 逻辑、推理、安全性全面升级
- 成为最强商用模型之一
3. Claude(Anthropic)
- 更安全的对齐技术(Constitutional AI)
4. Google Gemini(2023–2024,Google)
- 多模态能力极强
- 强调跨文本、图像、音频的统一模型
5. Llama 系列(Meta,2023–2024)
- 开源革命
- 让整个行业进入大模型民主化时代
6. DeepSeek(2024–2025,中国)
- 性价比和性能突破
- 强调高效训练与推理技术
特点
- AI 第一次变成人类可使用的工具
- 对齐技术的成熟(AI 更听话、更安全)
- 模型多模态化
阶段 5:多模态统一 + Agent + 推理增强(2024 – 未来)
这是现在正在发生的阶段。
代表方向与模型
- GPT-5(OpenAI,预计 2025)
- Gemini Ultra 系列(Google)
- Claude 3 家族(Anthropic)
- 多 Agent 系统(AutoGPT、DevIn 等)
- R1 / DeepSeek R1 系列(中国)
- 大规模推理模型(Reasoning LLM)
特点
- AI 具备自主推理能力
- 多模态统一(文字、图像、视频、音频全部打通)
- Agent 能自动执行任务
- 更接近“通用人工智能 AGI”
二、总结:每个时代的代表性 AI
按年份总结最重要的“时代代表”:
| 年代 | 代表模型 |
|---|---|
| 2013–2017 | Word2Vec、LSTM、Seq2Seq |
| 2018 | BERT、ELMo |
| 2019 | GPT-2、T5、RoBERTa |
| 2020 | GPT-3 |
| 2022 | ChatGPT |
| 2023 | GPT-4、Llama、Claude、Gemini |
| 2024–2025 | DeepSeek、R1 推理模型、多模态统一模型 |
