截至 2026年1月,通义千问(Qwen)开源系列中,所有 Qwen1.5、Qwen2、Qwen2.5 的模型均开放权重并支持微调。以下是目前官方开源、支持微调训练的 Qwen 模型列表,并附上推理部署与微调训练所需的 NVIDIA 显卡建议(基于 FP16 / LoRA / QLoRA 等常见配置)。
✅ Qwen 开源可微调模型清单(按参数量从小到大)
| 模型名称 | 参数量 | 是否支持微调 | Hugging Face 地址 |
|---|---|---|---|
Qwen2.5-0.5B |
0.5B | ✅ 是 | 链接 |
Qwen2.5-1.8B |
1.8B | ✅ 是 | 链接 |
Qwen2.5-4B |
4B | ✅ 是 | 链接 |
Qwen2.5-7B |
7B | ✅ 是 | 链接 |
Qwen2.5-14B |
14B | ✅ 是 | 链接 |
Qwen2.5-32B |
32B | ✅ 是 | 链接 |
Qwen2.5-72B |
72B | ✅ 是 | 链接 |
🔔 注:
- 所有模型均提供 Base(预训练) 和 Chat(对话微调) 版本;
- 不包含
Qwen-Max、Qwen-Plus、Qwen-Turbo(这些是 API 模型,不开放权重);- 推荐优先使用 Qwen2.5 系列(相比 Qwen1.5 / Qwen2,性能更强、训练更充分)。
🖥️ 部署 & 微调所需 NVIDIA 显卡建议
以下显存需求基于 典型配置(序列长度 512–2048,batch_size=1~4):
| 模型 | 推理(FP16) | 推理(4-bit) | 全参微调(FP16) | LoRA 微调 | QLoRA 微调 | 推荐 NVIDIA 显卡 |
|---|---|---|---|---|---|---|
| Qwen2.5-0.5B | ≥1.5 GB | ≥0.6 GB | ≥6 GB | ≥3 GB | ≥2 GB | GTX 1650 (4GB) 及以上 |
| Qwen2.5-1.8B | ≥3.5 GB | ≥1.2 GB | ≥10 GB | ≥5 GB | ≥3 GB | RTX 3050 (8GB) / T4 |
| Qwen2.5-4B | ≥7 GB | ≥2.5 GB | ≥16 GB | ≥8 GB | ≥5 GB | RTX 3060 (12GB) / A10 |
| Qwen2.5-7B | ≥14 GB | ≥5 GB | ≥32 GB | ≥12 GB | ≥8 GB | RTX 3090/4090 (24GB) / A10G |
| Qwen2.5-14B | ≥28 GB | ≥9 GB | ≥48 GB | ≥20 GB | ≥12 GB | A100 40GB / RTX 4090 + 多卡 |
| Qwen2.5-32B | ≥60 GB | ≥18 GB | ≥80 GB | ≥32 GB | ≥20 GB | A100 80GB / 多卡 A100/H100 |
| Qwen2.5-72B | ≥140 GB | ≥35 GB | ≥160 GB | ≥60 GB | ≥32 GB | 多卡 H100(8×80GB) 或 云平台 |
📌 关键说明
- 4-bit 推理:使用
bitsandbytes+transformers,显存可压缩至原模型的 ~1/3~1/4。 - QLoRA 微调:结合 4-bit 加载 + LoRA 适配器,是单卡微调大模型最省显存方案。
- 多卡支持:7B 及以上模型可通过
accelerate或DeepSpeed实现多卡推理/微调。 - 消费级显卡上限:
- RTX 4090(24GB) 可流畅运行 7B 模型的 QLoRA 微调;
- 14B 及以上 建议使用专业卡(A100/H100)或云服务(如阿里云、Lambda Labs)。
💡 推荐选择策略
| 用户场景 | 推荐模型 | 推荐显卡 |
|---|---|---|
| 学生/初学者实验 | Qwen2.5-0.5B / 1.8B | GTX 1650 / RTX 3050 |
| 个人开发者微调垂直应用 | Qwen2.5-4B / 7B | RTX 3060 / 3090 / 4090 |
| 企业级部署(高精度) | Qwen2.5-14B / 32B | A100 40/80GB |
| 科研/极限性能 | Qwen2.5-72B | 多卡 H100 集群 |
✅ 总结:
Qwen 开源生态完整覆盖 0.5B 到 72B,全部支持微调。
对于大多数个人开发者,RTX 3060(12GB)及以上显卡即可微调 7B 模型(通过 QLoRA),门槛大幅降低。



