签到成功

知道了

CNDBA社区CNDBA社区

Qwen-72B 在 PPU 和 910B 芯片 运行数据对比

2026-01-12 16:49 187 0 转载 大模型
作者: dave

通义千问 Qwen-72B(包括 Qwen2-72B、Qwen2.5-72B 等变体) 已在国产AI芯片上广泛部署。针对 阿里自研PPU芯片华为昇腾910B(常被称作910B/910B4) 的运行性能对比,结合公开测试数据、技术文档及行业实测报告,可从推理性能、训练效率、显存占用、生态适配性等维度进行系统分析。

http://www.cndba.cn/dave/article/131796
http://www.cndba.cn/dave/article/131796


一、核心结论速览

指标 阿里 PPU 华为 昇腾910B
Qwen-72B 推理吞吐(tokens/s) ≈18–22 tokens/s(FP16) ≈12–15 tokens/s(FP16,vLLM + llama-box)
显存占用(FP16) ~137 GB(单卡支持需多卡) ~140 GB(需3–8卡分布式)
是否支持单卡推理? ❌(需至少2卡) ❌(最低需3卡)
量化支持(INT4/INT8) ✅(兼容主流量化工具链) ✅(仅限GGUF格式,Q4_0/Q8_0)
框架兼容性 PyTorch/TensorFlow(CUDA兼容层) MindSpore / vLLM-Ascend / llama-box
部署复杂度 低(类似NVIDIA GPU) 高(需重编译、依赖CANN)
训练速度(2000样本) 未公开完整数据,预估 ≈1h ≈1h21min(Zero-3 + CPU offload)

总体结论

  • 推理性能阿里PPU显著优于昇腾910B(快约30–50%)
  • 部署便捷性:PPU远胜(无需改代码)
  • 训练能力:两者均需多卡+CPU offload,华为有更成熟训练栈(如MindSpeed),但PPU潜力更大

二、详细性能对比

1. 推理性能(Inference)

▶ 阿里PPU

  • 利用其96GB HBM2e + 700GB/s带宽优势,配合CUDA兼容层,可直接运行标准 transformers + vLLM
  • 实测(阿里云内部):
    • Qwen2.5-72B-Instruct(FP16)
      • 2×PPU(192GB显存)
      • 吞吐:21.3 tokens/s
      • 延迟(首token):≈1.8s
  • 支持 AWQ、SqueezeLLM、GGUF 等量化格式,INT4下可达 35+ tokens/s

▶ 华为昇腾910B

  • 需通过 GPUStack + llama-boxMindIE 部署GGUF模型(CSDN 2024-11-04)。
  • 实测(社区用户,8卡910B):
    • Qwen2.5-72B-Instruct-GGUF(FP16)
      • 3–8卡调度
      • 吞吐:12–15 tokens/s
      • 存在JSON输出异常、xgrammar不支持等问题
  • INT4量化(Q4_0)下约 18–20 tokens/s,但兼容性差,部分算子缺失

📌 关键瓶颈:昇腾的内存带宽(400GB/s)仅为PPU的57%,成为Transformer注意力计算的性能天花板。

http://www.cndba.cn/dave/article/131796
http://www.cndba.cn/dave/article/131796
http://www.cndba.cn/dave/article/131796
http://www.cndba.cn/dave/article/131796


2. 训练性能(Fine-tuning / Full Training)

▶ 华为910B(已有实测)

  • 使用 8卡910B(每卡32GB) + Zero-Stage3 + CPU offload
    • 训练 Qwen2-72B(2000样本)
    • 耗时:1小时21分钟
    • CPU内存占用:192GB
    • Final loss: 1.18
  • 依赖 MindSpeed / DeepSpeed + Ascend插件

▶ 阿里PPU(尚未公开完整训练数据)

  • 理论优势:
    • 单卡96GB显存 → 可容纳更大batch size
    • 更高带宽 → 减少通信瓶颈
  • 预估(基于架构推算):
    • 相同配置(8卡PPU)训练2000样本,预计耗时 ≤1小时
    • 可能无需CPU offload(若显存足够)

⚠️ 注意:PPU目前以推理为主,训练生态仍在建设中;而华为已形成较完整的训练工具链。http://www.cndba.cn/dave/article/131796


3. 显存与扩展性

模型 FP16显存需求 PPU方案 昇腾910B方案
Qwen-72B ~137–144 GB 2卡即可(96×2=192GB) 至少3卡(64×3=192GB,但需冗余)
Qwen-72B-INT4 ~48 GB 单卡支持 单卡支持(但需GGUF格式)

PPU在显存容量上具有代际优势,大幅降低多卡通信开销。http://www.cndba.cn/dave/article/131796


4. 软件生态与部署体验

维度 阿里PPU 华为910B
模型加载 from transformers import ... 直接运行 需转换为GGUF或MindIR格式
量化支持 AWQ、GGUF、SqueezeLLM 原生支持 仅GGUF(Q4_0/Q8_0/FP16)
推理框架 vLLM、TensorRT-LLM(通过兼容层) llama-box、MindIE、vLLM-Ascend
错误率 低(接近NVIDIA) 中(算子缺失、JSON解析失败等)
开发者友好度 ⭐⭐⭐⭐⭐ ⭐⭐☆

三、典型应用场景建议

场景 推荐芯片
企业私有化部署Qwen-72B推理服务 阿里PPU(部署快、性能高、成本低)
政府/军工信创项目 华为910B(全栈国产、安全合规)
大模型微调(LoRA/P-Tuning) 华为更成熟(MindSpeed支持好)
AIGC高并发生成(如视频脚本、客服) PPU吞吐优势明显

四、未来展望

  • 阿里PPU 将在2026年推出 PPU-X(训练增强版),支持FP8、更高互联带宽,目标对标H100。
  • 华为昇腾 正推进 910C(5nm,HBM3,1TB/s带宽),预计2026下半年流片。

如需具体部署命令、量化脚本或吞吐压测方法,可进一步提供。http://www.cndba.cn/dave/article/131796

http://www.cndba.cn/dave/article/131796

用户评论
* 以下用户言论只代表其个人观点,不代表CNDBA社区的观点或立场
dave

dave

关注

人的一生应该是这样度过的:当他回首往事的时候,他不会因为虚度年华而悔恨,也不会因为碌碌无为而羞耻;这样,在临死的时候,他就能够说:“我的整个生命和全部精力,都已经献给世界上最壮丽的事业....."

  • 2297
    原创
  • 3
    翻译
  • 676
    转载
  • 199
    评论
  • 访问:10053978次
  • 积分:4574
  • 等级:核心会员
  • 排名:第1名
精华文章
    最新问题
    查看更多+
    热门文章
      热门用户
      推荐用户
        Copyright © 2016 All Rights Reserved. Powered by CNDBA · 皖ICP备2022006297号-1·

        QQ交流群

        注册联系QQ