Qwen3-ASR 语音识别模型说明

Qwen3-ASR 是阿里云通义千问团队开源的高性能多语言语音识别（ASR）模型，主打52种语言/方言全覆盖、极速推理、强鲁棒性，并附带高精度强制对齐工具，是目前开源界综合能力很强的 ASR 方案之一。

一、模型家族与核心规格

Qwen3-ASR 包含 3 个核心模型，均采用 Apache-2.0 开源协议：http://www.cndba.cn/dave/article/131867

模型	参数量	定位	显存需求 (FP16)	核心优势
Qwen3-ASR-1.7B	17亿	旗舰高精度	~5GB	52语种SOTA、歌声识别、抗噪强
Qwen3-ASR-0.6B	6亿	轻量极速	~2GB	超高吞吐、流式低延迟
Qwen3-ForcedAligner-0.6B	6亿	文本-语音对齐	~2GB	11语种精准时间戳（误差<100ms）

二、核心能力：52种语言与22种中文方言

1. 30种国际语言

覆盖全球主流语种，含多地区口音（美式/英式/印度英语等）：
中文（普通话）、英语、日语、韩语、法语、德语、西班牙语、葡萄牙语、意大利语、俄语、阿拉伯语、土耳其语、越南语、泰语、印尼语、马来语、菲律宾语、希伯来语、波斯语、乌克兰语、波兰语、捷克语、罗马尼亚语、希腊语、荷兰语、瑞典语、挪威语、丹麦语、芬兰语、匈牙利语。

2. 22种中文方言（完整清单）

官话：东北、北京、冀鲁、胶辽、中原（陕西）、江淮（南京）、西南（四川/云南）、兰银（甘肃/宁夏）
吴语：上海话、苏州话、浙江话
粤语：广东话、香港话
闽语：闽南语、福建话、潮汕话
其他：湖南（湘）、江西（赣）、山西（晋）、安徽（徽）、广西平话、天津话

三、技术架构与创新

基座模型：基于 Qwen3-Omni 多模态大模型，具备强语义理解能力。
核心编码器：自研 AuT (Audio Transformer) 编码器，在大规模语音数据预训练，擅长提取声学与语言特征。
训练范式：多阶段训练，端到端优化，无CTC、无传统词典。
推理范式：
- 非自回归解码，推理速度极快
- 自动语言检测 (ALD)，无需指定语种，可实时判断52类语言/方言
- 流式/离线双模式，支持实时转写与长音频批量处理

四、性能表现

准确率（词错率 WER%）
- 普通话：5.2%
- 英语：7.8%
- 粤语：6.5%
- 四川话：7.1%
速度与吞吐
- 1.7B：RTF ≈ 0.0089，处理效率极高
- 0.6B：支持高并发，吞吐性能优异
- 流式首字延迟：92ms
特殊能力
- 原生支持歌声识别，支持带BGM歌曲、清唱转写
- 强抗噪，对嘈杂环境、远场录音、低音质音频适应性好
- 搭配对齐模型可实现高精度字级时间戳

五、典型应用场景

方言内容转写：方言采访、播客、短视频字幕
多语种会议：会议实时转写、纪要生成
歌词语料库：歌曲、说唱、戏曲转写标注
客服质检：方言客服录音分析、合规检查
本地生活：方言智能语音助手、智能家居语音交互

六、与 Whisper 对比

特性	Qwen3-ASR	OpenAI Whisper
中文方言	22种，精度高	少量方言，效果一般
推理速度	极快	较慢
显存占用	更低	较大
歌声识别	✅ 原生支持	❌ 效果差
自动语种	✅ 52类精准	✅ 有限语种
开源协议	Apache-2.0（商用友好）	MIT

七、官方资源

GitHub：https://github.com/QwenLM/Qwen3-ASR
ModelScope：https://modelscope.cn/models/qwen/Qwen3-ASR-1.7B
技术报告：https://arxiv.org/abs/2601.21337

签到成功

CNDBA社区

Qwen3-ASR 语音识别模型说明

一、模型家族与核心规格

二、核心能力：52种语言与22种中文方言

1. 30种国际语言

2. 22种中文方言（完整清单）

三、技术架构与创新

四、性能表现

五、典型应用场景

六、与 Whisper 对比

七、官方资源

dave

AI QQ群

签到成功

CNDBA社区

Qwen3-ASR 语音识别 模型说明

一、模型家族与核心规格

二、核心能力：52种语言与22种中文方言

1. 30种国际语言

2. 22种中文方言（完整清单）

三、技术架构与创新

四、性能表现

五、典型应用场景

六、与 Whisper 对比

七、官方资源

dave

AI QQ群

Qwen3-ASR 语音识别模型说明