一、如何计算 GPU 每秒最多生成多少 Tokens?
大模型推理(Inference)阶段通常是 Memory Bound(显存带宽受限),而不是 Compute Bound(计算能力受限)。这意味着速度主要取决于数据从显存搬运到计算单元的速度。
1. 核心公式
/text{理论最大 TPS} = /frac{/text{GPU 显存带宽 (GB/s)}}{/text{模型权重体积 (GB)} /times /text{精度系数}}
- 精度系数:
- FP16/BF16 (半精度): 2 Bytes/参数
- INT8: 1 Byte/参数
- INT4: ~0.5 - 0.7 Bytes/参数 (含少量元数据开销)
2. 实战案例:NVIDIA H100 (当前商用最强单卡)
- 显存带宽: 3.35 TB/s (即 3350 GB/s,使用 HBM3e)
- 模型: Llama-3-70B (INT4 量化)
- 体积: $70 /times 0.7 /approx 49 /text{ GB}$
- 单卡理论极限:
$$ /frac{3350}{49} /approx /mathbf{68.3 /text{ tokens/s}} $$
(注:这是单用户、单卡、Batch Size=1 的极限。如果是多用户并发,总吞吐量会更高,但单人延迟可能增加)
3. 实战案例:NVIDIA RTX 4090 (消费级卡皇)
- 显存带宽: 1008 GB/s
- 模型: Qwen3.5-72B (INT4)
- 体积: $72 /times 0.7 /approx 50.4 /text{ GB}$ (4090 24G 显存装不下,需多卡或量化更狠)
- 假设跑 Qwen3.5-32B (INT4, ~22GB):
$$ /frac{1008}{22} /approx /mathbf{45.8 /text{ tokens/s}} $$
(实际受软件损耗,通常在 30-40 TPS)
结论:单卡的物理极限通常在 30 ~ 70 TPS 之间(针对主流大模型)。要突破这个限制,必须靠多卡并行或投机采样技术。
二、商用收费大模型一般每秒能生成多少 Token?
商业 API(如 OpenAI, Anthropic, 阿里通义,百度文心)的速度不是由单卡决定的,而是由后端集群调度、负载均衡和限流策略决定的。
1. 行业标准速度范围
对于主流的 GPT-4, Claude 3.5, Qwen-Max 等级别模型:
| 场景 | 典型 TPS 范围 | 体验描述 |
|---|---|---|
| 普通用户 (免费/基础版) | 30 - 60 TPS | 非常快,肉眼几乎跟不上,像复制粘贴。 |
| 高负载时段 | 15 - 30 TPS | 稍慢,但仍流畅,能跟上阅读速度。 |
| 复杂推理模式 (o1, R1) | 5 - 15 TPS | 明显变慢,因为模型在“思考”(Chain of Thought),且计算量巨大。 |
| 超长上下文 (100K+) | 10 - 20 TPS | 随着 KV Cache 增大,显存带宽压力剧增,速度下降。 |
2. 为什么商用比本地快?
你本地的 M2 Pro 跑 9B 模型是 17 TPS,而云端跑 70B+ 模型却能到 50+ TPS,原因是:
- tensor parallelism (张量并行): 云端将一个大模型切分到了 8 张、16 张甚至更多 H100/A100 上同时计算。
- 虽然单卡带宽没变,但总带宽翻了 8 倍!
- 例如:8 张 H100 并行跑 70B 模型,等效带宽接近 $3350 /times 8 = 26800 /text{ GB/s}$ (理想情况),速度极快。
- Continuous Batching: 服务器同时处理几百个用户的请求,最大化利用显存带宽,摊薄了单个请求的等待时间。
- 专用优化: 使用了 vLLM, TGI 等高度优化的推理框架,以及定制化的算子。
三、目前顶配的大模型套餐每秒 Token 能到多少?
如果你购买了企业级最高配置(如 OpenAI Enterprise, Azure AI 专属集群,或阿里云百炼专属实例),速度可以达到惊人的水平。
1. 顶级公有云 API (Shared Cluster)
即使是付费最高的 Tier,在共享集群上,速度通常也被限制在 100 - 150 TPS 左右。
- 原因: 再快对人类阅读来说没有意义(人眼阅读极限约 10-15 TPS),且过快会导致网络传输瓶颈或前端渲染卡顿。厂商通常会故意做一点平滑处理。
2. 专属集群/私有化部署 (Dedicated Cluster)
如果你租用了一整组 GPU(例如 8x H100 或 16x H100)专门跑一个模型实例:
- 理论峰值: 200 - 400+ TPS
- 实现方式:
- 小模型 (7B-14B): 在 8x H100 上,通过极度并行和投机采样,可以轻松突破 300 TPS。
- 大模型 (70B+): 在 16x H100 上,配合 Speculative Decoding (投机采样)(用一个小模型预判,大模型验证),可以将有效生成速度提升到 150 - 200 TPS。
3. 极端优化案例 (科研/竞赛级)
在某些特定优化下(如使用 MoE 架构 + 极致量化 + 多机并行):
- Llama-3-8B: 在单台 8x H100 服务器上,实测可达 800 - 1000+ TPS。
- 这意味着一秒钟能生成一篇短文。
- 应用场景: 这种速度不是为了给人看,而是为了批量数据处理(如一次性生成 10 万条营销文案、大规模数据增强)。
📊 总结对比表
| 环境 | 硬件配置 | 典型模型 | 实测/理论 TPS | 备注 |
|---|---|---|---|---|
| 个人本地 | Mac M2 Pro | Qwen-9B (INT4) | 17 - 20 | 你的现状,流畅可读 |
| 个人本地 | RTX 4090 | Llama-3-8B (INT4) | 100 - 130 | 消费级极限 |
| 商用 API | 云端集群 (共享) | GPT-4o / Qwen-Max | 40 - 80 | 标准商用速度 |
| 商用 API | 云端集群 (高负载) | o1 / R1 (推理版) | 10 - 20 | 思考时间长,生成慢 |
| 顶配套餐 | 专属集群 (8x H100) | Llama-3-70B | 150 - 200 | 需开启投机采样 |
| 极致优化 | 多机集群 | 小模型 (8B) | 500 - 1000+ | 仅用于批量任务,非人机交互 |
💡 核心洞察
- 人类阅读瓶颈: 正常人阅读中文的速度约为 10-15 Tokens/s (约 5-8 个字/秒)。
- 超过 30 TPS,人类就无法实时阅读了,只能等生成完再看,或者快速扫视。
- 因此,商用模型很少追求超过 100 TPS 的单人流式输出,因为这超出了人类感知范围,属于资源浪费。
- 未来的方向: 现在的优化重点不再是“让人看得更快”,而是:
- 降低首字延迟 (TTFT): 让用户感觉“秒回”。
- 提高并发吞吐量: 让一台服务器同时服务更多人。
- 复杂推理能力: 牺牲速度换取更聪明的回答(如 o1 模式)。
结论:你本地的 17 TPS 已经完美覆盖了人类阅读需求。商用顶配虽然能达到 200+ TPS,但在人机对话场景中,体验和 50 TPS 差别不大;其优势主要体现在高并发处理能力和超大模型的加载能力上。





