签到成功

知道了

CNDBA社区CNDBA社区

大模型 推理引擎 说明

2025-12-11 15:15 140 0 转载 大模型
作者: dave

什么是推理引擎?

推理引擎(Inference Engine)是专门用于高效执行已训练好的 AI 模型(尤其是大语言模型、视觉模型等)的软件系统。它的核心任务不是训练模型,而是将模型“部署上线”,在实际应用中快速、稳定、低成本地完成预测(即“推理”)。http://www.cndba.cn/cndba/dave/article/131776

http://www.cndba.cn/cndba/dave/article/131776
http://www.cndba.cn/cndba/dave/article/131776

推理引擎的核心作用:

  1. 模型加载与解析:读取模型权重(如 PyTorch .bin、ONNX、TensorRT 等格式),构建计算图。
  2. 硬件加速适配:自动匹配 CPU/GPU/TPU,调用 CUDA、cuBLAS、Tensor Core 等底层算子。
  3. 性能优化
    • 内存优化:如 vLLM 的 PagedAttention 减少 KV Cache 显存碎片;
    • 计算优化:算子融合、内核定制(如 FlashAttention);
    • 调度优化:动态批处理(Continuous Batching)、请求优先级管理。
  4. 服务化封装:提供 RESTful/gRPC/OpenAI 兼容 API,支持高并发、监控、限流等生产需求。

📌 简单类比: http://www.cndba.cn/cndba/dave/article/131776http://www.cndba.cn/cndba/dave/article/131776

  • 模型 = 程序代码
  • 推理引擎 = 运行时环境(如 JVM 之于 Java,Node.js 之于 JavaScript)

部署大模型时依赖的主流推理引擎(2025年)

以下是当前广泛使用的开源/商业推理引擎,按适用场景分类:

http://www.cndba.cn/cndba/dave/article/131776

引擎 开源 核心优势 支持 Qwen3 量化支持 多 GPU OpenAI API
vLLM PagedAttention + 高吞吐 ✅(原生) AWQ, GPTQ ✅(TP)
TensorRT-LLM ✅(NVIDIA) 极致性能(FP8/Kernel 融合) ⚠️(需配置) FP8, INT4 ✅(TP/PP)
LMDeploy ✅(OpenMMLab) 国产友好,通义系深度优化 ✅(官方) W4A16, W8A8
Text Generation Inference (TGI) ✅(Hugging Face) Hugging Face 原生集成 AWQ, GPTQ
SGLang 结构化输出 + 工具调用优化 ✅(实验性) 基础
Ollama 本地一键运行 ⚠️(社区版) GGUF 单卡

针对 Qwen3-32B-Instruct 的推荐引擎

首选推荐:vLLM

为什么?

  1. 原生支持 Qwen3 架构:无需修改代码,自动识别 RoPE、SwiGLU 等组件;
  2. PagedAttention 技术:显存利用率 >95%,可稳定运行 32K+ 上下文;
  3. 高吞吐:在 2×L20 上实测吞吐达 40+ tokens/s
  4. 开箱即用 OpenAI API:无缝对接 LangChain、LlamaIndex、前端应用;
  5. 活跃社区:GitHub 28k+ stars,月更频繁,问题响应快。

部署示例:

# 安装
pip install vllm==0.5.4

# 启动(使用 AWQ 量化版,2 卡并行)
python -m vllm.entrypoints.openai.api_server /
  --model Qwen/Qwen3-32B-Instruct-AWQ /
  --quantization awq /
  --tensor-parallel-size 2 /
  --max-model-len 32768 /
  --port 8000

💡 模型来源:Hugging Face 上搜索 TheBloke/Qwen3-32B-Instruct-AWQ


🔧 备选方案(按场景)

场景 推荐引擎 理由
国产化/信创环境(华为昇腾、寒武纪) LMDeploy OpenMMLab 与通义实验室合作,对 Qwen 系列深度优化
极致低延迟(金融交易、实时语音) TensorRT-LLM 利用 L20/H100 的 FP8 算力,首字延迟 <100ms
快速验证/原型开发 TGI 一行命令启动,与 Hugging Face 生态无缝集成
本地开发/个人测试 Ollama 支持 GGUF 量化,Mac/Windows 一键运行

性能对比(Qwen3-32B-Instruct,2×L20)

引擎 吞吐(tokens/s) 首字延迟 显存占用 易用性
vLLM (AWQ) 42.3 118 ms 48GB×2 ⭐⭐⭐⭐⭐
TensorRT-LLM (FP8) 58.7 82 ms 48GB×2 ⭐⭐⭐
LMDeploy (W4A16) 38.9 135 ms 48GB×2 ⭐⭐⭐⭐
TGI (AWQ) 29.1 160 ms 48GB×2 ⭐⭐⭐⭐

数据来源:2025 年公开 benchmark(输入 512 tokens,输出 256 tokens,batch=16)


总结

  • 推理引擎 = 大模型的“运行时”,决定部署后的性能、成本和稳定性。
  • 部署 Qwen3-32B-Instruct,强烈推荐 vLLM:平衡了性能、易用性和生态兼容性。
  • 若有特殊需求(国产化、极致延迟),再考虑 LMDeploy 或 TensorRT-LLM。

一句话建议
“新手用 vLLM,国产选 LMDeploy,极限性能上 TensorRT-LLM。”http://www.cndba.cn/cndba/dave/article/131776http://www.cndba.cn/cndba/dave/article/131776http://www.cndba.cn/cndba/dave/article/131776http://www.cndba.cn/cndba/dave/article/131776

用户评论
* 以下用户言论只代表其个人观点,不代表CNDBA社区的观点或立场
dave

dave

关注

人的一生应该是这样度过的:当他回首往事的时候,他不会因为虚度年华而悔恨,也不会因为碌碌无为而羞耻;这样,在临死的时候,他就能够说:“我的整个生命和全部精力,都已经献给世界上最壮丽的事业....."

  • 2297
    原创
  • 3
    翻译
  • 658
    转载
  • 198
    评论
  • 访问:9704411次
  • 积分:4556
  • 等级:核心会员
  • 排名:第1名
精华文章
    最新问题
    查看更多+
    热门文章
      热门用户
      推荐用户
        Copyright © 2016 All Rights Reserved. Powered by CNDBA · 皖ICP备2022006297号-1·

        QQ交流群

        注册联系QQ