CosyVoice是阿里巴巴通义实验室(FunAudioLLM团队)开源的多语言高保真文本转语音(TTS)大模型,完全开源,采用宽松的Apache-2.0协议。
一、基本信息
- 研发方:阿里巴巴通义实验室(FunAudioLLM/Speech Lab)
- 最新版本:CosyVoice 3.0(Fun-CosyVoice3-0.5B)
- 模型参数:提供 300M、0.5B 等不同尺寸版本
- 开源协议:Apache License 2.0(可商用、修改、分发)
- 开源范围:模型权重、训练/推理代码、部署脚本 全栈开源
- GitHub:https://github.com/FunAudioLLM/CosyVoice
- ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512
二、核心技术架构
CosyVoice基于监督语义令牌(Supervised Semantic Tokens) 架构,区别于传统无监督语音令牌:
- 语义编码器:从多语言ASR模型提取带文本对齐的语义令牌
- LLM生成器:以文本为输入,预测对应语音令牌序列
- 流匹配解码器:将令牌高效转换为高保真波形
- 说话人编码器:3秒短音频即可提取音色特征,实现零样本克隆
三、核心能力(V3.0)
- 零样本语音克隆:仅需3秒参考音频,即可高度还原任意说话人音色
- 多语言+方言:支持9种主流语言+18种汉语方言/口音
- 语言:中、英、日、韩、德、西、法、意、俄
- 方言:粤语、四川话、上海话、闽南语等
- 流式实时合成:双向流式,首包延迟150ms,边输入边朗读
- 跨语言合成:中文音色可直接生成英语/日语,保留原音色与情感
- 高自然度:MOS评分5.53+(接近真人水平)
- 复杂文本:支持数字、符号、多音字、中英混合、表情符号
- 情感韵律:可控制语气(高兴/严肃/亲切)、语速、音量、语调
四、版本演进
- CosyVoice-300M:初代轻量版,基础多语言TTS
- CosyVoice2-0.5B:流式推理、延迟优化、MOS提升
- CosyVoice3-0.5B:超多语言、方言增强、双向流式、后训练优化
五、开源与商用
- ✅ 完全开源:代码+权重+推理+训练全开放
- ✅ 商用友好:Apache-2.0允许免费商用、二次开发、闭源分发
- ✅ 部署灵活:支持本地部署、Docker、API服务、边缘设备
六、典型应用场景
- 智能客服/助手、有声书/配音、虚拟人直播
- 导航播报、无障碍阅读、多语种教育、游戏NPC语音
七、快速部署(极简)
# 环境
conda create -n cosyvoice python=3.10
conda activate cosyvoice
pip install -r requirements.txt
# 下载模型(ModelScope)
from modelscope import snapshot_download
snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512')
# 推理(3秒克隆+流式TTS)
from cosyvoice import CosyVoice
model = CosyVoice('Fun-CosyVoice3-0.5B-2512')
audio = model.synthesize(
text="你好,这是CosyVoice的流式合成演示",
ref_audio="ref.wav", # 3秒参考音频
stream=True
)
总结
CosyVoice是当前最领先的开源多语言TTS方案之一,以零样本克隆、超低延迟、多语言方言、高保真音质为核心优势,且完全开源可商用,适合个人开发者与企业快速落地高质量语音合成能力。






