一、 大模型的算力类型有哪些?
大模型的算力需求主要集中在训练(Training)和推理(Inference)两个阶段,它们对硬件的要求侧重点不同:
训练算力 (Training Compute):
- 核心需求: 极高的浮点计算能力(尤其是FP16/BF16混合精度)、超大的显存容量(用于存储模型参数、梯度、优化器状态和中间激活值)、极高的显存带宽(保证数据能快速喂给计算单元)、强大的多卡互联带宽(如NVLink, InfiniBand, 高速以太网,用于分布式训练时的梯度同步)。
- 特点: 计算密集、显存密集、通信密集。通常需要持续数天甚至数周的高负载运行,对功耗和散热要求极高。
推理算力 (Inference Compute):
- 核心需求: 良好的计算能力(执行前向传播)、足够的显存容量(加载模型权重)、较高的吞吐量(处理大量并发请求)和低延迟(快速响应单个请求)。对显存带宽和多卡互联的要求相对训练较低。
- 特点: 相对训练负载较轻,更注重效率、成本和响应速度。可以是持续的在线服务,也可以是间歇性的批量处理。
简单来说,训练是“造车”,需要重型机械和大量原材料;推理是“开车”,需要的是稳定、高效和经济。
二、 训练使用的 GPU 卡有哪些?(含国产厂商)
训练大模型主要依赖高性能数据中心GPU,以下是主流和国产选项:
国际主流厂商 (NVIDIA)
这是目前市场的绝对主流,生态最完善。
NVIDIA H100 (Hopper架构):
- 定位: 旗舰级AI训练和推理GPU。
- 显存: 80GB HBM3。
- 显存带宽: 3.35TB/s。
- 特点: 性能远超A100,支持FP8等新数据类型,是训练千亿、万亿级大模型的首选。
- 单卡价格: 约 ¥150,000 - ¥200,000。
NVIDIA A100 (Ampere架构):
- 定位: 上一代旗舰,目前仍是数据中心主力。
- 显存: 40GB/80GB HBM2。
- 显存带宽: 1.6TB/s (80GB版本)。
- 特点: 性能强大,生态成熟,性价比相对H100更高。
- 单卡价格: 约 ¥80,000 - ¥120,000。
- 注: A800是A100的“特供版”,性能略低,主要面向中国市场,价格约 ¥70,000 - ¥100,000。
NVIDIA L40S (Ada Lovelace架构):
- 定位: 面向AI训练和图形渲染的工作站/数据中心GPU。
- 显存: 48GB GDDR6。
- 特点: 性能介于A100和消费卡之间,显存大,适合中等规模模型训练或作为推理卡。
- 单卡价格: 未在资料中明确,但通常低于A100,预计在 ¥50,000 - ¥70,000 区间。
国产厂商
国产GPU正在快速发展,已在部分场景实现替代。
华为 昇腾 (Ascend) 系列:
- 代表型号: Ascend 910B。
- 定位: 高性能AI训练芯片。
- 特点: 性能对标NVIDIA A100,在国产化智算中心(如中国移动哈尔滨智算中心)中大规模部署,实现100%国产化率。生态(CANN, MindSpore)正在快速完善。
- 单卡价格: 未公开,但考虑到其在国家级项目中的应用,应与A100处于同一量级。
百度 昆仑芯 (Kunlunxin) 系列:
- 代表型号: 昆仑芯2代。
- 定位: 通用AI芯片,支持训推一体。
- 特点: 已在百度“百舸”AI平台中实现与NVIDIA等芯片的混合训练,性能损失控制在很低水平(百卡<3%)。
- 单卡价格: 未公开。
海光 (Hygon) DCU (Deep Computing Unit):
- 代表型号: 基于GPGPU架构,如DCU Z100系列。
- 定位: 兼容ROCm生态的通用加速卡。
- 特点: 与AMD GPU生态兼容,可用于AI训练和科学计算。同样在“百舸”平台支持混合训练。
- 单卡价格: 未公开。
壁仞科技 (Biren)、摩尔线程 (Moore Threads) 等:
- 这些是新兴的国产GPU公司,已发布或正在研发对标国际主流的AI训练芯片,但大规模商用和生态成熟度仍在追赶中。
其他国际厂商
- AMD Instinct 系列:
- 代表型号: MI250X, MI300X。
- 定位: 高性能计算和AI训练。
- 显存: MI250X 128GB HBM2e, MI300X 192GB HBM3。
- 特点: 显存容量巨大,性能强劲,是NVIDIA的主要竞争对手,但在AI软件生态上仍需加强。
- 单卡价格: MI250X约 ¥100,000 - ¥150,000。
三、 单卡需要多少钱?
如上文所述,价格因型号、市场供需和购买渠道而异:
- 顶级训练卡 (H100): ¥15万 - 20万元
- 主流训练卡 (A100/A800): ¥7万 - 12万元
- 高性能工作站/数据中心卡 (L40S, RTX 6000 Ada): ¥5万 - 7万元
- 国产旗舰 (昇腾910B等): 价格未完全公开,但预计与A100同级别。
- 性价比方案 (如英特尔锐炫™ A770用于推理): 价格远低于上述专业卡,可能在数千元级别,但主要用于推理而非大规模训练。
四、 最小大模型集群需要几张卡?
“最小集群”没有绝对标准,取决于模型大小和训练策略。
- 7B-13B 参数模型: 使用单张高端消费卡(如RTX 4090 24GB)或专业卡(如RTX 6000 Ada 48GB),配合量化、梯度累积等技术,可以在单卡上进行微调(Fine-tuning)或小规模实验。但全参数训练效率很低。
- 30B-70B 参数模型: 这是目前业界主流的大模型规模。根据资料,使用英特尔锐炫™ A770等显卡的4卡一体机即可支持70B模型的推理。对于训练,即使是70B模型,通常也需要至少2-8张A100/H100级别的专业卡才能进行有效率的训练。例如,资料中提到超云的8卡一体机可运行32B-70B模型。
- 千亿/万亿参数模型: 这是真正的“大模型”,必须依赖大规模集群,从数百张到上万张GPU不等。例如,中国移动哈尔滨智算中心的单集群规模就达到了1.8万张。
总结:
对于严肃的、有效率的大模型(30B+)训练而言,一个实用的最小集群通常需要2-8张高端专业GPU卡(如A100/H100或同级别国产卡)。单卡更适合小模型或推理任务。
五、 大模型参数与 GPU 卡的数量关系?
这是一个复杂的问题,没有简单的线性公式,主要受以下因素影响:
显存容量是硬约束: 模型参数、优化器状态、激活值等都需要存储在GPU显存中。模型越大,所需显存越多。
- 一个经验法则是,训练一个模型所需的总显存大约是模型参数量(以十亿B为单位)乘以20GB。例如,一个70B模型可能需要约 70 * 20 = 1400GB 的总显存。
- 如果单卡显存为80GB(A100/H100),那么理论上至少需要 1400 / 80 ≈ 18张卡 来放下整个模型。但这只是理论最小值,实际中由于通信开销、并行策略效率等问题,往往需要更多卡。
并行策略: 为了突破单卡显存限制和加速训练,必须采用分布式训练策略:
- 数据并行 (Data Parallelism): 每张卡持有完整的模型副本,处理不同的数据批次。这要求每张卡的显存都能放下整个模型,因此对单卡显存要求极高,不适合超大模型。
- 模型并行 (Model Parallelism): 将模型的不同层或部分切分到不同GPU上。这可以降低单卡显存压力,但增加了GPU间的通信开销。
- 张量并行 (Tensor Parallelism): 将单个层内的大矩阵运算切分到多个GPU上。通信开销最大,但能最有效地利用多卡算力。
- 流水线并行 (Pipeline Parallelism): 将模型按层分组,不同组放在不同GPU上,像流水线一样处理数据。
- 实际训练中,通常会混合使用多种并行策略(如3D并行:数据+张量+流水线)来达到最佳效果。
训练效率与成本: 卡的数量不仅是为了“放得下”,更是为了“跑得快”。更多的卡可以缩短训练时间,但也会带来更高的通信开销和成本。需要在速度、成本和可行性之间找到平衡点。
软件优化: 使用DeepSpeed、Megatron-LM等优化框架,可以通过ZeRO(Zero Redundancy Optimizer)等技术大幅降低显存占用,使得在更少的卡上训练更大的模型成为可能。
简单估算关系:
- 7B-13B模型: 1-4张卡(40/80GB显存)。
- 30B-70B模型: 8-32张卡(80GB显存)是比较常见的配置。
- 千亿模型 (如GPT-3 175B): 通常需要数百到上千张A100/H100级别的GPU。
- 万亿模型: 需要数千甚至上万张GPU组成的超级集群。
总而言之,GPU卡的数量与模型参数量正相关,但具体数量取决于所选GPU的显存大小、采用的并行策略和软件优化水平。显存是基础门槛,而并行技术和软件框架是突破这个门槛、实现高效训练的关键。