Tokens 与文字(如中文字符或英文单词)之间的换算没有固定比例,因为 token 的划分依赖于所使用的 分词器(tokenizer),而不同模型(如 GPT、Claude、Llama 等)使用不同的 tokenizer。但我们可以给出大致的经验估算,尤其针对主流模型(如 OpenAI GPT 系列)。
📌 核心概念:什么是 Token?
- Token 是语言模型处理文本的最小单位。
- 它可以是:
- 一个英文单词(如
"cat") - 一个子词(如
"un"、"happy"→"un" + "happy") - 一个标点符号(如
".") - 一个中文字符(通常每个汉字 ≈ 1 token)
- 空格、换行符等也可能单独成 token
- 一个英文单词(如
📊 常见语言下的经验换算(以 GPT-3.5/4 的 tokenizer 为准)
✅ 中文(简体/繁体)
- 1 个汉字 ≈ 1 token
- 标点符号、数字、英文字母通常也各占 1 token
- 估算:
- 100 tokens ≈ 70~100 个中文字
实际略少于字数,因为部分标点或英文混排会增加 token 数
- 100 tokens ≈ 70~100 个中文字
| Tokens | 中文字符数(估算) |
|---|---|
| 32 | 25–32 字 |
| 64 | 50–64 字 |
| 128 | 100–128 字 |
| 256 | 200–256 字 |
| 500 | 400–500 字 |
| 1000 | 800–1000 字 |
💡 举例:一段 500 字的中文文章,大约消耗 500–600 tokens(含标点、空格等)
✅ 英文
- 1 个 token ≈ ¾ 个英文单词(即 4 个 tokens ≈ 3 个单词)
- 因为常见词如
"the","a"各占 1 token,而长词如"unbelievable"可能被拆成"un" + "believ" + "able"
| Tokens | 英文单词数(估算) |
|---|---|
| 32 | ~24 词 |
| 64 | ~48 词 |
| 128 | ~96 词 |
| 256 | ~192 词 |
| 500 | ~375 词 |
| 1000 | ~750 词 |
💡 举例:一篇 500 词的英文文章 ≈ 650–700 tokens
🔧 如何精确计算?
你可以使用官方工具来统计:
OpenAI Tokenizer(推荐)
- 在线工具:https://platform.openai.com/tokenizer
- 或使用 Python 库
tiktoken:import tiktoken enc = tiktoken.encoding_for_model("gpt-4") tokens = enc.encode("你的文本") print(len(tokens))
Claude(Anthropic)
- 使用其自己的 tokenizer(基于 SentencePiece)
- 中文同样接近 1 字 = 1 token
- 可用 Claude Token Calculator 或 API 返回的
usage字段
📝 总结速查表(通用估算)
| Tokens | 中文字符 | 英文单词 | 大致内容长度 |
|---|---|---|---|
| 32 | 25–32 | ~24 | 一句话 |
| 64 | 50–64 | ~48 | 2–3 句话 |
| 128 | 100–128 | ~96 | 一小段 |
| 256 | 200–256 | ~192 | 一段完整论述 |
| 500 | 400–500 | ~375 | 半页 A4 文字 |
| 1000 | 800–1000 | ~750 | 一页 A4 文字 |
⚠️ 注意:代码、特殊符号、URL、JSON 等会显著增加 token 消耗(例如一个长 URL 可能占 10+ tokens)




