一、基本概念与关系
1. GPU(Graphics Processing Unit)
- 是一种专用处理器芯片,擅长大规模并行计算。
- 最初为图形渲染设计,现广泛用于 AI、科学计算等。
- 类似于 CPU,但核心数量多、单核性能弱、并行能力强。
2. 显卡(Graphics Card)
- 是一个完整的硬件设备,用于将计算机的图像/计算结果输出或加速。
- 包含 GPU 芯片 + 其他组件。
- 分两类:
- 消费级显卡:如 RTX 4090,带 HDMI/DP 接口,可接显示器,用于游戏、创作。
- 计算显卡 / GPU 加速卡:如 NVIDIA A100/H100,无显示输出接口,专用于服务器 AI/HPC。
3. GPU 加速卡
- 是显卡的一种特殊形式,专为高性能计算(HPC)和 AI 设计。
- 通常没有视频输出功能,强调计算吞吐、显存容量与带宽。
- 例如:NVIDIA H100 PCIe 卡、华为 Atlas 900 中的昇腾 910 卡。
✅ 关系总结:
GPU 是芯片(核心) → 显卡是硬件产品(含 GPU + 其他) → GPU 加速卡是显卡的子类(专用于计算)。
二、显卡的核心组件
一块完整的显卡通常包含以下部分:
组件 | 作用 |
---|---|
GPU 芯片 | 计算核心,执行并行任务 |
显存(VRAM) | 存储 GPU 处理的数据(如模型参数、图像帧缓冲) |
显存类型 | GDDR6/GDDR6X(消费级)、HBM/HBM2e/HBM3(高端计算) 等(决定带宽和容量) |
供电模块(VRM) | 为 GPU 和显存提供稳定电力 |
散热系统 | 风扇、热管、均热板或液冷,防止过热降频 |
PCB 电路板 | 集成所有电子元件 |
输出接口(消费卡有) | HDMI、DisplayPort 等(加速卡通常没有) |
PCIe 接口 | 与主板通信(数据传输通道) |
三、显存、HBM、带宽的关系
1. 显存(VRAM)
- GPU 的“内存”,用于临时存储:
- 深度学习中的模型权重、激活值;
- 图形渲染中的纹理、帧缓冲。
- 容量越大,能处理的模型/分辨率越高(如 80GB HBM3 可训更大模型)。
2. HBM(High Bandwidth Memory)
- 一种高带宽显存技术,相比 GDDR 更先进:
- 堆叠式封装(3D stacking):显存芯片垂直堆叠在 GPU 旁边;
- 通过硅中介层(Interposer)连接,路径极短;
- 功耗更低、带宽更高、占用 PCB 面积更小。
- 常见类型:HBM2、HBM2e、HBM3(H100 使用)、HBM3e(H200 使用)。
3. 显存带宽(Memory Bandwidth)
- 单位:GB/s(每秒可传输多少 GB 数据);
公式近似:
带宽=总线位宽×显存频率÷8
HBM 的优势:
- 位宽极大(H100 HBM3:5120-bit);
- 带宽极高(H100:3.35 TB/s);
- 而 GDDR6X(如 RTX 4090)仅约 1 TB/s。
🔑 三者关系:
HBM 是一种显存技术 → 它能提供极高的显存带宽 → 高带宽让 GPU 更快地读写显存 → 避免“计算快、等数据”的瓶颈。💡 举例:
训练一个 70B 大模型,若显存带宽低,GPU 80% 时间在等数据;
若带宽高(如 H100),GPU 利用率可达 90%+。
四、NVIDIA 与 华为(昇腾)GPU 对比
项目 | NVIDIA(以 H100 为例) | 华为(以 昇腾 910B 为例) |
---|---|---|
芯片类型 | 通用 GPU(支持图形 + CUDA + AI) | 专用 NPU(AI 加速器,无图形功能) |
架构 | Hopper(GPU) | Da Vinci(3D Cube 矩阵计算单元) |
制程工艺 | TSMC 4N(定制 5nm) | 中芯国际 7nm(N+2) |
显存类型 | HBM3 | HBM2e |
显存容量 | 80 GB | 64 GB |
显存带宽 | 3.35 TB/s | ~1.0 TB/s(估算) |
FP16 算力 | 1979 TFLOPS(稀疏) | ~256 TFLOPS(FP16) |
互联技术 | NVLink 4.0(900 GB/s 芯片间) | HCCS(华为自研,带宽较低) |
软件生态 | CUDA + cuDNN + TensorRT(全球主导) | CANN + MindSpore(国内为主,生态较弱) |
是否支持通用计算 | ✅ 是(可跑任意 CUDA 程序) | ❌ 否(仅支持 AI 框架适配任务) |
典型应用场景 | 全球大模型训练(如 GPT、Llama) | 国内大模型(如盘古、讯飞星火) |
是否受制裁影响 | ✅ H100 对华禁售 | ✅ 依赖国产供应链,但受限于先进封装 |
📌 关键差异:
- NVIDIA 是“全能选手”:GPU 通吃图形、科学计算、AI;
- 昇腾是“AI 专精选手”:只做 AI,效率高但灵活性差;
- 生态差距巨大:CUDA 是事实标准,昇腾需重写代码适配。
五、总结
- 显卡 = GPU + 显存 + 供电 + 散热 + 接口;
- GPU 加速卡是无显示输出的显卡,专用于计算;
- HBM 是高端显存技术,带来超高带宽,是 AI 芯片性能的关键;
- NVIDIA GPU 通用性强、生态无敌;华为昇腾专注 AI、国产替代,但生态和带宽仍有差距。
💡 选购建议:
- 做通用 AI 研究/部署 → 优先 NVIDIA(若可获得);
- 国内合规/信创项目 → 华为昇腾是重要选择;
- 游戏/图形创作 → 只能选 NVIDIA/AMD 消费级显卡。