签到成功

知道了

CNDBA社区CNDBA社区

大模型 显卡(GPU 加速卡) 说明

2025-09-27 22:21 301 0 转载 大模型
作者: dave

一、基本概念与关系

1. GPU(Graphics Processing Unit)

  • 是一种专用处理器芯片,擅长大规模并行计算
  • 最初为图形渲染设计,现广泛用于 AI、科学计算等。
  • 类似于 CPU,但核心数量多、单核性能弱、并行能力强。

2. 显卡(Graphics Card)

  • 是一个完整的硬件设备,用于将计算机的图像/计算结果输出或加速。
  • 包含 GPU 芯片 + 其他组件
  • 分两类:
    • 消费级显卡:如 RTX 4090,带 HDMI/DP 接口,可接显示器,用于游戏、创作。
    • 计算显卡 / GPU 加速卡:如 NVIDIA A100/H100,无显示输出接口,专用于服务器 AI/HPC。

3. GPU 加速卡

  • 显卡的一种特殊形式,专为高性能计算(HPC)和 AI 设计。
  • 通常没有视频输出功能,强调计算吞吐、显存容量与带宽。
  • 例如:NVIDIA H100 PCIe 卡、华为 Atlas 900 中的昇腾 910 卡。

关系总结
GPU 是芯片(核心) → 显卡是硬件产品(含 GPU + 其他) → GPU 加速卡是显卡的子类(专用于计算)。


二、显卡的核心组件

一块完整的显卡通常包含以下部分:

http://www.cndba.cn/cndba/dave/article/131746

组件 作用
GPU 芯片 计算核心,执行并行任务
显存(VRAM) 存储 GPU 处理的数据(如模型参数、图像帧缓冲)
显存类型 GDDR6/GDDR6X(消费级)、HBM/HBM2e/HBM3(高端计算) 等(决定带宽和容量)
供电模块(VRM) 为 GPU 和显存提供稳定电力
散热系统 风扇、热管、均热板或液冷,防止过热降频
PCB 电路板 集成所有电子元件
输出接口(消费卡有) HDMI、DisplayPort 等(加速卡通常没有
PCIe 接口 与主板通信(数据传输通道)

三、显存、HBM、带宽的关系

1. 显存(VRAM)

  • GPU 的“内存”,用于临时存储:
    • 深度学习中的模型权重、激活值;
    • 图形渲染中的纹理、帧缓冲。
  • 容量越大,能处理的模型/分辨率越高(如 80GB HBM3 可训更大模型)。

2. HBM(High Bandwidth Memory)

  • 一种高带宽显存技术,相比 GDDR 更先进:
    • 堆叠式封装(3D stacking):显存芯片垂直堆叠在 GPU 旁边;
    • 通过硅中介层(Interposer)连接,路径极短;
    • 功耗更低、带宽更高、占用 PCB 面积更小。
  • 常见类型:HBM2、HBM2e、HBM3(H100 使用)、HBM3e(H200 使用)。

3. 显存带宽(Memory Bandwidth)

🔑 三者关系
HBM 是一种显存技术它能提供极高的显存带宽高带宽让 GPU 更快地读写显存避免“计算快、等数据”的瓶颈

http://www.cndba.cn/cndba/dave/article/131746
http://www.cndba.cn/cndba/dave/article/131746

💡 举例:
训练一个 70B 大模型,若显存带宽低,GPU 80% 时间在等数据;
若带宽高(如 H100),GPU 利用率可达 90%+。http://www.cndba.cn/cndba/dave/article/131746


四、NVIDIA 与 华为(昇腾)GPU 对比

项目 NVIDIA(以 H100 为例) 华为(以 昇腾 910B 为例)
芯片类型 通用 GPU(支持图形 + CUDA + AI) 专用 NPU(AI 加速器,无图形功能)
架构 Hopper(GPU) Da Vinci(3D Cube 矩阵计算单元)
制程工艺 TSMC 4N(定制 5nm) 中芯国际 7nm(N+2)
显存类型 HBM3 HBM2e
显存容量 80 GB 64 GB
显存带宽 3.35 TB/s ~1.0 TB/s(估算)
FP16 算力 1979 TFLOPS(稀疏) ~256 TFLOPS(FP16)
互联技术 NVLink 4.0(900 GB/s 芯片间) HCCS(华为自研,带宽较低)
软件生态 CUDA + cuDNN + TensorRT(全球主导) CANN + MindSpore(国内为主,生态较弱)
是否支持通用计算 ✅ 是(可跑任意 CUDA 程序) ❌ 否(仅支持 AI 框架适配任务)
典型应用场景 全球大模型训练(如 GPT、Llama) 国内大模型(如盘古、讯飞星火)
是否受制裁影响 ✅ H100 对华禁售 ✅ 依赖国产供应链,但受限于先进封装

📌 关键差异

  • NVIDIA 是“全能选手”:GPU 通吃图形、科学计算、AI;
  • 昇腾是“AI 专精选手”:只做 AI,效率高但灵活性差;
  • 生态差距巨大:CUDA 是事实标准,昇腾需重写代码适配。

五、总结

  1. 显卡 = GPU + 显存 + 供电 + 散热 + 接口
  2. GPU 加速卡是无显示输出的显卡,专用于计算;
  3. HBM 是高端显存技术,带来超高带宽,是 AI 芯片性能的关键
  4. NVIDIA GPU 通用性强、生态无敌;华为昇腾专注 AI、国产替代,但生态和带宽仍有差距

💡 选购建议:http://www.cndba.cn/cndba/dave/article/131746http://www.cndba.cn/cndba/dave/article/131746

  • 做通用 AI 研究/部署 → 优先 NVIDIA(若可获得);
  • 国内合规/信创项目 → 华为昇腾是重要选择;
  • 游戏/图形创作 → 只能选 NVIDIA/AMD 消费级显卡。
用户评论
* 以下用户言论只代表其个人观点,不代表CNDBA社区的观点或立场
dave

dave

关注

人的一生应该是这样度过的:当他回首往事的时候,他不会因为虚度年华而悔恨,也不会因为碌碌无为而羞耻;这样,在临死的时候,他就能够说:“我的整个生命和全部精力,都已经献给世界上最壮丽的事业....."

  • 2297
    原创
  • 3
    翻译
  • 630
    转载
  • 198
    评论
  • 访问:9257119次
  • 积分:4528
  • 等级:核心会员
  • 排名:第1名
精华文章
    最新问题
    查看更多+
    热门文章
      热门用户
      推荐用户
        Copyright © 2016 All Rights Reserved. Powered by CNDBA · 皖ICP备2022006297号-1·

        QQ交流群

        注册联系QQ