签到成功

知道了

CNDBA社区CNDBA社区

GPU 每秒生成 token 数计算(正常 40 - 80 Tokens/S)

2026-03-03 11:09 541 0 转载 大模型
作者: dave

一、如何计算 GPU 每秒最多生成多少 Tokens?

大模型推理(Inference)阶段通常是 Memory Bound(显存带宽受限),而不是 Compute Bound(计算能力受限)。这意味着速度主要取决于数据从显存搬运到计算单元的速度

1. 核心公式

/text{理论最大 TPS} = /frac{/text{GPU 显存带宽 (GB/s)}}{/text{模型权重体积 (GB)} /times /text{精度系数}} http://www.cndba.cn/cndba/dave/article/131844http://www.cndba.cn/cndba/dave/article/131844

http://www.cndba.cn/cndba/dave/article/131844

  • 精度系数
    • FP16/BF16 (半精度): 2 Bytes/参数
    • INT8: 1 Byte/参数
    • INT4: ~0.5 - 0.7 Bytes/参数 (含少量元数据开销)

2. 实战案例:NVIDIA H100 (当前商用最强单卡)

  • 显存带宽: 3.35 TB/s (即 3350 GB/s,使用 HBM3e)
  • 模型: Llama-3-70B (INT4 量化)
    • 体积: $70 /times 0.7 /approx 49 /text{ GB}$
  • 单卡理论极限:
    $$ /frac{3350}{49} /approx /mathbf{68.3 /text{ tokens/s}} $$
    (注:这是单用户、单卡、Batch Size=1 的极限。如果是多用户并发,总吞吐量会更高,但单人延迟可能增加)

3. 实战案例:NVIDIA RTX 4090 (消费级卡皇)

  • 显存带宽: 1008 GB/s
  • 模型: Qwen3.5-72B (INT4)
    • 体积: $72 /times 0.7 /approx 50.4 /text{ GB}$ (4090 24G 显存装不下,需多卡或量化更狠)
    • 假设跑 Qwen3.5-32B (INT4, ~22GB):
      $$ /frac{1008}{22} /approx /mathbf{45.8 /text{ tokens/s}} $$
      (实际受软件损耗,通常在 30-40 TPS)

结论:单卡的物理极限通常在 30 ~ 70 TPS 之间(针对主流大模型)。要突破这个限制,必须靠多卡并行投机采样技术。


二、商用收费大模型一般每秒能生成多少 Token?

商业 API(如 OpenAI, Anthropic, 阿里通义,百度文心)的速度不是由单卡决定的,而是由后端集群调度、负载均衡和限流策略决定的。http://www.cndba.cn/cndba/dave/article/131844

1. 行业标准速度范围

对于主流的 GPT-4, Claude 3.5, Qwen-Max 等级别模型:http://www.cndba.cn/cndba/dave/article/131844

场景 典型 TPS 范围 体验描述
普通用户 (免费/基础版) 30 - 60 TPS 非常快,肉眼几乎跟不上,像复制粘贴。
高负载时段 15 - 30 TPS 稍慢,但仍流畅,能跟上阅读速度。
复杂推理模式 (o1, R1) 5 - 15 TPS 明显变慢,因为模型在“思考”(Chain of Thought),且计算量巨大。
超长上下文 (100K+) 10 - 20 TPS 随着 KV Cache 增大,显存带宽压力剧增,速度下降。

2. 为什么商用比本地快?

你本地的 M2 Pro 跑 9B 模型是 17 TPS,而云端跑 70B+ 模型却能到 50+ TPS,原因是:

  • tensor parallelism (张量并行): 云端将一个大模型切分到了 8 张、16 张甚至更多 H100/A100 上同时计算。
    • 虽然单卡带宽没变,但总带宽翻了 8 倍!
    • 例如:8 张 H100 并行跑 70B 模型,等效带宽接近 $3350 /times 8 = 26800 /text{ GB/s}$ (理想情况),速度极快。
  • Continuous Batching: 服务器同时处理几百个用户的请求,最大化利用显存带宽,摊薄了单个请求的等待时间。
  • 专用优化: 使用了 vLLM, TGI 等高度优化的推理框架,以及定制化的算子。

三、目前顶配的大模型套餐每秒 Token 能到多少?

如果你购买了企业级最高配置(如 OpenAI Enterprise, Azure AI 专属集群,或阿里云百炼专属实例),速度可以达到惊人的水平。

1. 顶级公有云 API (Shared Cluster)

即使是付费最高的 Tier,在共享集群上,速度通常也被限制在 100 - 150 TPS 左右。http://www.cndba.cn/cndba/dave/article/131844

  • 原因: 再快对人类阅读来说没有意义(人眼阅读极限约 10-15 TPS),且过快会导致网络传输瓶颈或前端渲染卡顿。厂商通常会故意做一点平滑处理。

2. 专属集群/私有化部署 (Dedicated Cluster)

如果你租用了一整组 GPU(例如 8x H100 或 16x H100)专门跑一个模型实例:

  • 理论峰值: 200 - 400+ TPS
  • 实现方式:
    • 小模型 (7B-14B): 在 8x H100 上,通过极度并行和投机采样,可以轻松突破 300 TPS
    • 大模型 (70B+): 在 16x H100 上,配合 Speculative Decoding (投机采样)(用一个小模型预判,大模型验证),可以将有效生成速度提升到 150 - 200 TPS

3. 极端优化案例 (科研/竞赛级)

在某些特定优化下(如使用 MoE 架构 + 极致量化 + 多机并行):

  • Llama-3-8B: 在单台 8x H100 服务器上,实测可达 800 - 1000+ TPS
    • 这意味着一秒钟能生成一篇短文。
  • 应用场景: 这种速度不是为了给人看,而是为了批量数据处理(如一次性生成 10 万条营销文案、大规模数据增强)。

📊 总结对比表

环境 硬件配置 典型模型 实测/理论 TPS 备注
个人本地 Mac M2 Pro Qwen-9B (INT4) 17 - 20 你的现状,流畅可读
个人本地 RTX 4090 Llama-3-8B (INT4) 100 - 130 消费级极限
商用 API 云端集群 (共享) GPT-4o / Qwen-Max 40 - 80 标准商用速度
商用 API 云端集群 (高负载) o1 / R1 (推理版) 10 - 20 思考时间长,生成慢
顶配套餐 专属集群 (8x H100) Llama-3-70B 150 - 200 需开启投机采样
极致优化 多机集群 小模型 (8B) 500 - 1000+ 仅用于批量任务,非人机交互

💡 核心洞察

  1. 人类阅读瓶颈: 正常人阅读中文的速度约为 10-15 Tokens/s (约 5-8 个字/秒)。
    • 超过 30 TPS,人类就无法实时阅读了,只能等生成完再看,或者快速扫视。
    • 因此,商用模型很少追求超过 100 TPS 的单人流式输出,因为这超出了人类感知范围,属于资源浪费。
  2. 未来的方向: 现在的优化重点不再是“让人看得更快”,而是:
    • 降低首字延迟 (TTFT): 让用户感觉“秒回”。
    • 提高并发吞吐量: 让一台服务器同时服务更多人。
    • 复杂推理能力: 牺牲速度换取更聪明的回答(如 o1 模式)。

结论:你本地的 17 TPS 已经完美覆盖了人类阅读需求。商用顶配虽然能达到 200+ TPS,但在人机对话场景中,体验和 50 TPS 差别不大;其优势主要体现在高并发处理能力超大模型的加载能力上。

http://www.cndba.cn/cndba/dave/article/131844
http://www.cndba.cn/cndba/dave/article/131844
http://www.cndba.cn/cndba/dave/article/131844http://www.cndba.cn/cndba/dave/article/131844

用户评论
* 以下用户言论只代表其个人观点,不代表CNDBA社区的观点或立场
dave

dave

关注

人的一生应该是这样度过的:当他回首往事的时候,他不会因为虚度年华而悔恨,也不会因为碌碌无为而羞耻;这样,在临死的时候,他就能够说:“我的整个生命和全部精力,都已经献给世界上最壮丽的事业....."

  • 2297
    原创
  • 3
    翻译
  • 729
    转载
  • 201
    评论
  • 访问:10506720次
  • 积分:4627
  • 等级:核心会员
  • 排名:第1名
精华文章
    热门文章
      Copyright © 2016 All Rights Reserved. Powered by CNDBA · 皖ICP备2022006297号-1·

      AI QQ群