签到成功

知道了

CNDBA社区CNDBA社区

大模型 分类

2025-12-29 14:14 136 0 转载 大模型
作者: dave

大模型(Large Language Models, LLMs)可以从多个维度进行分类。以下是系统性的分类方式,涵盖训练目标、架构设计、应用场景、模态类型等主流视角:http://www.cndba.cn/dave/article/131789http://www.cndba.cn/dave/article/131789


一、按 训练目标与对齐程度 分类(最常见)

类型 说明 特点 典型代表
Base 模型(基础预训练模型) 仅在大规模无标注文本上通过自监督学习(如语言建模)训练得到 未经过指令微调或人类偏好对齐;擅长文本续写,但不擅长遵循指令 LLaMA、GPT-2、Qwen-Max(Base版)
Instruct 模型(指令微调模型) 在 Base 模型基础上,使用“指令-响应”对进行监督微调(SFT) 能较好理解并执行人类指令;适用于问答、摘要、翻译等任务 Alpaca、Vicuna、FLAN-T5、Qwen-Instruct
Chat 模型(对话优化模型) 在 Instruct 模型基础上,进一步使用多轮对话数据 + 强化学习(如 RLHF/RLAIF)对齐人类偏好 支持上下文感知、多轮对话、安全性和流畅性更强 ChatGPT、Claude、Llama-2-Chat、Qwen-Chat

演进路径:Base → Instruct → Chat(逐步对齐人类意图)http://www.cndba.cn/dave/article/131789

http://www.cndba.cn/dave/article/131789
http://www.cndba.cn/dave/article/131789


二、按 模型架构 分类

架构类型 说明 适用任务 代表模型
Decoder-only 仅使用解码器(因果语言模型),单向注意力 文本生成、对话、代码生成 GPT 系列、LLaMA、Qwen
Encoder-only 仅使用编码器(双向注意力) 文本分类、实体识别、句子嵌入 BERT、RoBERTa
Encoder-Decoder 同时包含编码器和解码器 序列到序列任务(翻译、摘要、问答) T5、BART、FLAN-T5

💡 当前主流大语言模型(如 GPT、LLaMA、Qwen)多为 Decoder-only 架构。

http://www.cndba.cn/dave/article/131789
http://www.cndba.cn/dave/article/131789
http://www.cndba.cn/dave/article/131789
http://www.cndba.cn/dave/article/131789http://www.cndba.cn/dave/article/131789


三、按 应用场景/领域 分类

类型 说明 示例
通用大模型 面向广泛任务,具备通用语言理解与生成能力 GPT-4、Qwen-Max、Claude
领域专用模型 在特定领域数据上继续预训练或微调 - Code Llama(代码)
- BioBERT(生物医学)
- FinBERT(金融)
工具增强模型 能调用外部工具(如计算器、API、搜索引擎) Toolformer、OpenAI o1(部分能力)、ReAct 框架下的模型
推理优化模型 专为复杂推理(数学、逻辑)设计 o1、DeepSeek-MoE、Qwen-Math

四、按 模态支持 分类

类型 说明 示例
纯文本模型 仅处理文本输入输出 LLaMA、GPT-3.5
多模态模型 支持图像、音频、视频等多模态输入 - LLaVA(图文)
- Qwen-VL / Qwen-Audio
- GPT-4V(视觉)
- Gemini(多模态)

五、按 参数规模与部署方式 分类(工程视角)

类型 参数量级 特点 用途
超大模型 >100B 需要分布式训练/推理,成本高 云端服务(如 GPT-4)
大模型 10B–100B 可在多卡服务器部署 企业级应用
中小模型 <10B(如 1B–7B) 可在单卡甚至端侧运行 移动端、边缘设备(如 Qwen-1.8B、Phi-3)
MoE 模型(混合专家) 总参数大,激活参数少 高效推理,兼顾性能与成本 Mixtral、Qwen-MoE、DeepSeek-MoE

六、其他分类视角

  • 开源 vs 闭源:LLaMA(开源) vs GPT-4(闭源)
  • 是否支持长上下文:如 Qwen-Max(32K)、Yi-34B-200K(200K tokens)
  • 是否具备 Agent 能力:能否自主规划、调用工具、反思(如 AutoGPT、MetaAgent)

总结图示(简化版)

大模型
├── 按训练阶段:Base → Instruct → Chat
├── 按架构:Decoder-only / Encoder-only / Encoder-Decoder
├── 按领域:通用 / 领域专用 / 工具增强
├── 按模态:纯文本 / 多模态
└── 按规模:超大 / 大 / 中小 / MoE
用户评论
* 以下用户言论只代表其个人观点,不代表CNDBA社区的观点或立场
dave

dave

关注

人的一生应该是这样度过的:当他回首往事的时候,他不会因为虚度年华而悔恨,也不会因为碌碌无为而羞耻;这样,在临死的时候,他就能够说:“我的整个生命和全部精力,都已经献给世界上最壮丽的事业....."

  • 2297
    原创
  • 3
    翻译
  • 666
    转载
  • 199
    评论
  • 访问:9874164次
  • 积分:4564
  • 等级:核心会员
  • 排名:第1名
精华文章
    最新问题
    查看更多+
    热门文章
      热门用户
      推荐用户
        Copyright © 2016 All Rights Reserved. Powered by CNDBA · 皖ICP备2022006297号-1·

        QQ交流群

        注册联系QQ