签到成功

知道了

CNDBA社区CNDBA社区

大模型 高效微调 技术 说明

2025-12-16 22:11 98 0 转载 大模型
作者: dave

微调大语言模型(Large Language Model, LLM)是将通用大模型适配到特定任务或领域(如医疗、法律、客服)的关键技术。随着模型规模增大(7B → 70B+),全量微调(Full Fine-tuning)成本过高,因此涌现出多种高效微调(Parameter-Efficient Fine-Tuning, PEFT) 方法。

http://www.cndba.cn/cndba/dave/article/131781
http://www.cndba.cn/cndba/dave/article/131781

以下是截至 2025 年 主流的微调技术分类与详解:http://www.cndba.cn/cndba/dave/article/131781

http://www.cndba.cn/cndba/dave/article/131781


🧩 一、全量微调(Full Fine-tuning)

✅ 原理

更新所有模型参数(包括词嵌入、注意力层、MLP 层等)。

🔧 特点

  • 效果最好(理论上达到任务最优)
  • 资源消耗极大:7B 模型需 ≥60GB 显存(BF16),70B 需多卡 A100/H100
  • 存储成本高:每微调一个任务,需保存完整模型副本(~14GB for 7B)

📌 适用场景

  • 拥有强大算力集群(如云厂商、大厂)
  • 任务对性能要求极高(如竞赛、核心产品)

⚠️ 不推荐个人或中小企业使用

http://www.cndba.cn/cndba/dave/article/131781


🚀 二、高效微调(PEFT)——主流方向

1. LoRA(Low-Rank Adaptation)

Hu et al., 2021

✅ 原理

  • 冻结原始权重 ( W /in /mathbb{R}^{d /times k} )
  • 引入低秩分解:( /Delta W = A /times B ),其中 ( A /in /mathbb{R}^{d /times r}, B /in /mathbb{R}^{r /times k} ),( r /ll d )(如 r=8~64)
  • 前向传播:( h = Wx + /Delta W x = Wx + ABx )

🔧 优点

  • 只训练 <1% 参数(如 7B 模型仅 4M 可训练参数)
  • 推理时可合并权重(( W_{/text{new}} = W + AB )),无延迟
  • 支持多任务切换(加载不同 LoRA 权重)

📌 应用

  • 最广泛使用的 PEFT 方法(Hugging Face PEFT 库默认支持)
  • 适用于指令微调、领域适配

2. QLoRA(Quantized LoRA)

Dettmers et al., 2023http://www.cndba.cn/cndba/dave/article/131781

✅ 原理

在 LoRA 基础上增加:

  • 4-bit NormalFloat(NF4)量化:模型权重以 4-bit 加载
  • 双重量化(Double Quantization):对缩放因子再量化
  • 分页优化器(Paged Optimizer):防 OOM

🔧 优点

  • 显存需求极低:7B 模型可在 单张 RTX 3090/4090(24GB) 上微调
  • 微调质量 ≈ LoRA ≈ 全量微调(实验证明)
  • 开启“消费级 GPU 微调百亿模型”时代

📌 应用

  • 个人开发者、高校实验室首选
  • Qwen、Llama、ChatGLM 等开源模型标配方案

3. Adapter

Houlsby et al., 2019http://www.cndba.cn/cndba/dave/article/131781

✅ 原理

  • 在 Transformer 层中插入小型前馈网络模块(Adapter)
  • 冻结主干,只训练 Adapter(通常插在 FFN 和 Attention 后)

🔧 缺点

  • 推理有延迟(需额外计算 Adapter)
  • 模块位置敏感,调参复杂

📌 现状

  • 被 LoRA 取代,已较少使用

4. Prefix Tuning / Prompt Tuning

✅ 原理

  • 不修改模型权重,而是在输入前添加可学习的虚拟 token(prefix/prompt)
    • Prefix Tuning:在每一层 Transformer 的 key/value 前加 prefix
    • Prompt Tuning:仅在输入 embedding 前加 prompt

🔧 特点

  • 可训练参数极少(<0.1%)
  • 完全无侵入,适合 API 调用场景

📌 适用

  • 黑盒模型(如 GPT-3 API)无法获取权重时
  • 轻量级任务(如分类、简单问答)

❌ 不适合复杂生成任务(如长文本、代码)


5. IA³(Infused Adapter by Inhibiting and Amplifying Inner Activations)

Liu et al., 2022http://www.cndba.cn/cndba/dave/article/131781

✅ 原理

  • 引入可学习的缩放向量(learnable scaling vectors):
    • 对 key、value、FFN 激活值进行逐元素缩放
    • 例如:( v’ = v /odot l_v ),其中 ( l_v ) 可训练

🔧 优点

  • 仅增加 0.02% 参数
  • 训练极快,适合快速实验

📌 应用

  • 资源极度受限场景
  • 多任务学习中的轻量适配

6. DoRA(Weight-Decomposed Low-Rank Adaptation)

2024 年新方法

http://www.cndba.cn/cndba/dave/article/131781

✅ 原理

将权重更新分解为幅度(magnitude)方向(direction) 两部分:

  • 方向用 LoRA 学习
  • 幅度单独学习

🔧 优势

  • 比 LoRA 更稳定,尤其在低 rank(r=8)时
  • 提升微调后模型的泛化能力

📌 状态

  • 新兴方法,已在 Llama-3、Qwen2 微调中验证有效

📊 三、技术对比总表

方法 可训练参数占比 显存需求 推理延迟 微调质量 易用性
Full FT 100% 极高 ★★★★★
LoRA ~0.1–1% (可合并) ★★★★☆ ⭐⭐⭐⭐
QLoRA ~0.1–1% 极低 无(合并后) ★★★★☆ ⭐⭐⭐⭐
Adapter ~0.5–2% ★★★☆☆ ⭐⭐
Prompt Tuning <0.1% ★★☆☆☆ ⭐⭐⭐
IA³ ~0.02% 极低 ★★★☆☆ ⭐⭐⭐
DoRA ~0.1–1% ★★★★★ ⭐⭐⭐

当前推荐组合QLoRA(训练) + 权重合并(部署)


🛠️ 四、如何选择微调方法?

你的条件 推荐方案
有 A100/H100 集群 Full FT 或 LoRA
单张 RTX 4090 / 3090 QLoRA(唯一可行)
只能调用 API(无权重) Prompt Tuning
需同时部署多个任务 LoRA / QLoRA(动态切换 adapter)
追求极致轻量 IA³ 或 DoRA

🔮 五、未来趋势(2025+)

  1. QLoRA 成为事实标准:开源社区默认采用
  2. 多模态 PEFT 兴起:如 Vision-LoRA(适配 CLIP + LLM)
  3. 自动化 PEFT:Auto-LoRA(自动搜索最优 rank 和模块)
  4. 与 RAG 融合:微调 + 检索增强,减少幻觉

✅ 总结

微调 ≠ 全量更新
现代大模型微调的核心思想是:
“冻结主干,轻量适配,高效迭代”

http://www.cndba.cn/cndba/dave/article/131781

对于绝大多数用户:
QLoRA 是最佳起点 —— 低成本、高质量、易部署。

用户评论
* 以下用户言论只代表其个人观点,不代表CNDBA社区的观点或立场
dave

dave

关注

人的一生应该是这样度过的:当他回首往事的时候,他不会因为虚度年华而悔恨,也不会因为碌碌无为而羞耻;这样,在临死的时候,他就能够说:“我的整个生命和全部精力,都已经献给世界上最壮丽的事业....."

  • 2297
    原创
  • 3
    翻译
  • 659
    转载
  • 199
    评论
  • 访问:9728537次
  • 积分:4557
  • 等级:核心会员
  • 排名:第1名
精华文章
    最新问题
    查看更多+
    热门文章
      热门用户
      推荐用户
        Copyright © 2016 All Rights Reserved. Powered by CNDBA · 皖ICP备2022006297号-1·

        QQ交流群

        注册联系QQ