大模型(Large Language Models, LLMs)可以从多个维度进行分类。以下是系统性的分类方式,涵盖训练目标、架构设计、应用场景、模态类型等主流视角:
一、按 训练目标与对齐程度 分类(最常见)
| 类型 | 说明 | 特点 | 典型代表 |
|---|---|---|---|
| Base 模型(基础预训练模型) | 仅在大规模无标注文本上通过自监督学习(如语言建模)训练得到 | 未经过指令微调或人类偏好对齐;擅长文本续写,但不擅长遵循指令 | LLaMA、GPT-2、Qwen-Max(Base版) |
| Instruct 模型(指令微调模型) | 在 Base 模型基础上,使用“指令-响应”对进行监督微调(SFT) | 能较好理解并执行人类指令;适用于问答、摘要、翻译等任务 | Alpaca、Vicuna、FLAN-T5、Qwen-Instruct |
| Chat 模型(对话优化模型) | 在 Instruct 模型基础上,进一步使用多轮对话数据 + 强化学习(如 RLHF/RLAIF)对齐人类偏好 | 支持上下文感知、多轮对话、安全性和流畅性更强 | ChatGPT、Claude、Llama-2-Chat、Qwen-Chat |
✅ 演进路径:Base → Instruct → Chat(逐步对齐人类意图)
二、按 模型架构 分类
| 架构类型 | 说明 | 适用任务 | 代表模型 |
|---|---|---|---|
| Decoder-only | 仅使用解码器(因果语言模型),单向注意力 | 文本生成、对话、代码生成 | GPT 系列、LLaMA、Qwen |
| Encoder-only | 仅使用编码器(双向注意力) | 文本分类、实体识别、句子嵌入 | BERT、RoBERTa |
| Encoder-Decoder | 同时包含编码器和解码器 | 序列到序列任务(翻译、摘要、问答) | T5、BART、FLAN-T5 |
💡 当前主流大语言模型(如 GPT、LLaMA、Qwen)多为 Decoder-only 架构。
三、按 应用场景/领域 分类
| 类型 | 说明 | 示例 |
|---|---|---|
| 通用大模型 | 面向广泛任务,具备通用语言理解与生成能力 | GPT-4、Qwen-Max、Claude |
| 领域专用模型 | 在特定领域数据上继续预训练或微调 | - Code Llama(代码) - BioBERT(生物医学) - FinBERT(金融) |
| 工具增强模型 | 能调用外部工具(如计算器、API、搜索引擎) | Toolformer、OpenAI o1(部分能力)、ReAct 框架下的模型 |
| 推理优化模型 | 专为复杂推理(数学、逻辑)设计 | o1、DeepSeek-MoE、Qwen-Math |
四、按 模态支持 分类
| 类型 | 说明 | 示例 |
|---|---|---|
| 纯文本模型 | 仅处理文本输入输出 | LLaMA、GPT-3.5 |
| 多模态模型 | 支持图像、音频、视频等多模态输入 | - LLaVA(图文) - Qwen-VL / Qwen-Audio - GPT-4V(视觉) - Gemini(多模态) |
五、按 参数规模与部署方式 分类(工程视角)
| 类型 | 参数量级 | 特点 | 用途 |
|---|---|---|---|
| 超大模型 | >100B | 需要分布式训练/推理,成本高 | 云端服务(如 GPT-4) |
| 大模型 | 10B–100B | 可在多卡服务器部署 | 企业级应用 |
| 中小模型 | <10B(如 1B–7B) | 可在单卡甚至端侧运行 | 移动端、边缘设备(如 Qwen-1.8B、Phi-3) |
| MoE 模型(混合专家) | 总参数大,激活参数少 | 高效推理,兼顾性能与成本 | Mixtral、Qwen-MoE、DeepSeek-MoE |
六、其他分类视角
- 开源 vs 闭源:LLaMA(开源) vs GPT-4(闭源)
- 是否支持长上下文:如 Qwen-Max(32K)、Yi-34B-200K(200K tokens)
- 是否具备 Agent 能力:能否自主规划、调用工具、反思(如 AutoGPT、MetaAgent)
总结图示(简化版)
大模型
├── 按训练阶段:Base → Instruct → Chat
├── 按架构:Decoder-only / Encoder-only / Encoder-Decoder
├── 按领域:通用 / 领域专用 / 工具增强
├── 按模态:纯文本 / 多模态
└── 按规模:超大 / 大 / 中小 / MoE



