微调大语言模型(Large Language Model, LLM)是将通用大模型适配到特定任务或领域(如医疗、法律、客服)的关键技术。随着模型规模增大(7B → 70B+),全量微调(Full Fine-tuning)成本过高,因此涌现出多种高效微调(Parameter-Efficient Fine-Tuning, PEFT) 方法。
以下是截至 2025 年 主流的微调技术分类与详解:
🧩 一、全量微调(Full Fine-tuning)
✅ 原理
更新所有模型参数(包括词嵌入、注意力层、MLP 层等)。
🔧 特点
- 效果最好(理论上达到任务最优)
- 资源消耗极大:7B 模型需 ≥60GB 显存(BF16),70B 需多卡 A100/H100
- 存储成本高:每微调一个任务,需保存完整模型副本(~14GB for 7B)
📌 适用场景
- 拥有强大算力集群(如云厂商、大厂)
- 任务对性能要求极高(如竞赛、核心产品)
⚠️ 不推荐个人或中小企业使用
🚀 二、高效微调(PEFT)——主流方向
1. LoRA(Low-Rank Adaptation)
Hu et al., 2021
✅ 原理
- 冻结原始权重 ( W /in /mathbb{R}^{d /times k} )
- 引入低秩分解:( /Delta W = A /times B ),其中 ( A /in /mathbb{R}^{d /times r}, B /in /mathbb{R}^{r /times k} ),( r /ll d )(如 r=8~64)
- 前向传播:( h = Wx + /Delta W x = Wx + ABx )
🔧 优点
- 只训练 <1% 参数(如 7B 模型仅 4M 可训练参数)
- 推理时可合并权重(( W_{/text{new}} = W + AB )),无延迟
- 支持多任务切换(加载不同 LoRA 权重)
📌 应用
- 最广泛使用的 PEFT 方法(Hugging Face PEFT 库默认支持)
- 适用于指令微调、领域适配
2. QLoRA(Quantized LoRA)
Dettmers et al., 2023
✅ 原理
在 LoRA 基础上增加:
- 4-bit NormalFloat(NF4)量化:模型权重以 4-bit 加载
- 双重量化(Double Quantization):对缩放因子再量化
- 分页优化器(Paged Optimizer):防 OOM
🔧 优点
- 显存需求极低:7B 模型可在 单张 RTX 3090/4090(24GB) 上微调
- 微调质量 ≈ LoRA ≈ 全量微调(实验证明)
- 开启“消费级 GPU 微调百亿模型”时代
📌 应用
- 个人开发者、高校实验室首选
- Qwen、Llama、ChatGLM 等开源模型标配方案
3. Adapter
Houlsby et al., 2019
✅ 原理
- 在 Transformer 层中插入小型前馈网络模块(Adapter)
- 冻结主干,只训练 Adapter(通常插在 FFN 和 Attention 后)
🔧 缺点
- 推理有延迟(需额外计算 Adapter)
- 模块位置敏感,调参复杂
📌 现状
- 被 LoRA 取代,已较少使用
4. Prefix Tuning / Prompt Tuning
✅ 原理
- 不修改模型权重,而是在输入前添加可学习的虚拟 token(prefix/prompt)
- Prefix Tuning:在每一层 Transformer 的 key/value 前加 prefix
- Prompt Tuning:仅在输入 embedding 前加 prompt
🔧 特点
- 可训练参数极少(<0.1%)
- 完全无侵入,适合 API 调用场景
📌 适用
- 黑盒模型(如 GPT-3 API)无法获取权重时
- 轻量级任务(如分类、简单问答)
❌ 不适合复杂生成任务(如长文本、代码)
5. IA³(Infused Adapter by Inhibiting and Amplifying Inner Activations)
Liu et al., 2022
✅ 原理
- 引入可学习的缩放向量(learnable scaling vectors):
- 对 key、value、FFN 激活值进行逐元素缩放
- 例如:( v’ = v /odot l_v ),其中 ( l_v ) 可训练
🔧 优点
- 仅增加 0.02% 参数
- 训练极快,适合快速实验
📌 应用
- 资源极度受限场景
- 多任务学习中的轻量适配
6. DoRA(Weight-Decomposed Low-Rank Adaptation)
2024 年新方法
✅ 原理
将权重更新分解为幅度(magnitude) 和方向(direction) 两部分:
- 方向用 LoRA 学习
- 幅度单独学习
🔧 优势
- 比 LoRA 更稳定,尤其在低 rank(r=8)时
- 提升微调后模型的泛化能力
📌 状态
- 新兴方法,已在 Llama-3、Qwen2 微调中验证有效
📊 三、技术对比总表
| 方法 | 可训练参数占比 | 显存需求 | 推理延迟 | 微调质量 | 易用性 |
|---|---|---|---|---|---|
| Full FT | 100% | 极高 | 无 | ★★★★★ | ⭐ |
| LoRA | ~0.1–1% | 中 | 无(可合并) | ★★★★☆ | ⭐⭐⭐⭐ |
| QLoRA | ~0.1–1% | 极低 | 无(合并后) | ★★★★☆ | ⭐⭐⭐⭐ |
| Adapter | ~0.5–2% | 中 | 有 | ★★★☆☆ | ⭐⭐ |
| Prompt Tuning | <0.1% | 低 | 无 | ★★☆☆☆ | ⭐⭐⭐ |
| IA³ | ~0.02% | 极低 | 无 | ★★★☆☆ | ⭐⭐⭐ |
| DoRA | ~0.1–1% | 中 | 无 | ★★★★★ | ⭐⭐⭐ |
✅ 当前推荐组合:QLoRA(训练) + 权重合并(部署)
🛠️ 四、如何选择微调方法?
| 你的条件 | 推荐方案 |
|---|---|
| 有 A100/H100 集群 | Full FT 或 LoRA |
| 单张 RTX 4090 / 3090 | QLoRA(唯一可行) |
| 只能调用 API(无权重) | Prompt Tuning |
| 需同时部署多个任务 | LoRA / QLoRA(动态切换 adapter) |
| 追求极致轻量 | IA³ 或 DoRA |
🔮 五、未来趋势(2025+)
- QLoRA 成为事实标准:开源社区默认采用
- 多模态 PEFT 兴起:如 Vision-LoRA(适配 CLIP + LLM)
- 自动化 PEFT:Auto-LoRA(自动搜索最优 rank 和模块)
- 与 RAG 融合:微调 + 检索增强,减少幻觉
✅ 总结
微调 ≠ 全量更新。
现代大模型微调的核心思想是:
“冻结主干,轻量适配,高效迭代”。对于绝大多数用户:
QLoRA 是最佳起点 —— 低成本、高质量、易部署。



