Qwen3-ASR 是阿里云通义千问团队开源的高性能多语言语音识别(ASR)模型,主打52种语言/方言全覆盖、极速推理、强鲁棒性,并附带高精度强制对齐工具,是目前开源界综合能力很强的 ASR 方案之一。
一、模型家族与核心规格
Qwen3-ASR 包含 3 个核心模型,均采用 Apache-2.0 开源协议:
| 模型 | 参数量 | 定位 | 显存需求 (FP16) | 核心优势 |
|---|---|---|---|---|
| Qwen3-ASR-1.7B | 17亿 | 旗舰高精度 | ~5GB | 52语种SOTA、歌声识别、抗噪强 |
| Qwen3-ASR-0.6B | 6亿 | 轻量极速 | ~2GB | 超高吞吐、流式低延迟 |
| Qwen3-ForcedAligner-0.6B | 6亿 | 文本-语音对齐 | ~2GB | 11语种精准时间戳(误差<100ms) |
二、核心能力:52种语言与22种中文方言
1. 30种国际语言
覆盖全球主流语种,含多地区口音(美式/英式/印度英语等):
中文(普通话)、英语、日语、韩语、法语、德语、西班牙语、葡萄牙语、意大利语、俄语、阿拉伯语、土耳其语、越南语、泰语、印尼语、马来语、菲律宾语、希伯来语、波斯语、乌克兰语、波兰语、捷克语、罗马尼亚语、希腊语、荷兰语、瑞典语、挪威语、丹麦语、芬兰语、匈牙利语。
2. 22种中文方言(完整清单)
- 官话:东北、北京、冀鲁、胶辽、中原(陕西)、江淮(南京)、西南(四川/云南)、兰银(甘肃/宁夏)
- 吴语:上海话、苏州话、浙江话
- 粤语:广东话、香港话
- 闽语:闽南语、福建话、潮汕话
- 其他:湖南(湘)、江西(赣)、山西(晋)、安徽(徽)、广西平话、天津话
三、技术架构与创新
- 基座模型:基于 Qwen3-Omni 多模态大模型,具备强语义理解能力。
- 核心编码器:自研 AuT (Audio Transformer) 编码器,在大规模语音数据预训练,擅长提取声学与语言特征。
- 训练范式:多阶段训练,端到端优化,无CTC、无传统词典。
- 推理范式:
- 非自回归解码,推理速度极快
- 自动语言检测 (ALD),无需指定语种,可实时判断52类语言/方言
- 流式/离线双模式,支持实时转写与长音频批量处理
四、性能表现
- 准确率(词错率 WER%)
- 普通话:5.2%
- 英语:7.8%
- 粤语:6.5%
- 四川话:7.1%
- 速度与吞吐
- 1.7B:RTF ≈ 0.0089,处理效率极高
- 0.6B:支持高并发,吞吐性能优异
- 流式首字延迟:92ms
- 特殊能力
- 原生支持歌声识别,支持带BGM歌曲、清唱转写
- 强抗噪,对嘈杂环境、远场录音、低音质音频适应性好
- 搭配对齐模型可实现高精度字级时间戳
五、典型应用场景
- 方言内容转写:方言采访、播客、短视频字幕
- 多语种会议:会议实时转写、纪要生成
- 歌词语料库:歌曲、说唱、戏曲转写标注
- 客服质检:方言客服录音分析、合规检查
- 本地生活:方言智能语音助手、智能家居语音交互
六、与 Whisper 对比
| 特性 | Qwen3-ASR | OpenAI Whisper |
|---|---|---|
| 中文方言 | 22种,精度高 | 少量方言,效果一般 |
| 推理速度 | 极快 | 较慢 |
| 显存占用 | 更低 | 较大 |
| 歌声识别 | ✅ 原生支持 | ❌ 效果差 |
| 自动语种 | ✅ 52类精准 | ✅ 有限语种 |
| 开源协议 | Apache-2.0(商用友好) | MIT |






