
CosyVoice系列TTS模型在24年12月份发布了2.0版本,当时效果已经很好了。
今天回看这些老开源项目,发现3.0版本也马上上线了,一起来预览一下。
3.0版本的质量是真的有很大的提升,单独拿出来一段可能感受不到,把2.0和3.0对比下就知道进步有多大。
这真不是因为3比2大,我就说3好。
我还特意打乱顺序让我同事去盲听,3.0的反馈比2.0好太多。
扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)

项目简介
CosyVoice 3 是阿里巴巴集团通义实验室语音团队研发的零样本TTS模型,实现复杂环境下的语音合成。它通过扩大训练数据规模至百万小时、增加模型参数至 15 亿,并采用多任务监督训练的语音分词器和可微分奖励优化等技术,在内容一致性、说话人相似度和韵律自然度上超越CosyVoice 2,支持 9 种语言和 18 种汉语方言。
DEMO
文章内可以放的音频数量有限,挑一个比较有代表性的中文内容。
3.0版本是理解了场景,不只是简单的声音克隆。
原音频
2.0版本
3.0版本
3.0版本知道这是在说顺口溜,所以提高了语速。
技术特点
-
采用新型语音分词器,通过多任务监督训练(涵盖自动语音识别、语音情感识别等任务),提升韵律自然度。
-
提出新的可微分奖励模型,适用于自身及其他基于大语言模型的语音合成模型的后训练。
-
扩大训练数据规模至百万小时,覆盖 9 种语言、18 种汉语方言及多样场景。
-
增加模型参数至 15 亿,提升多语言基准测试性能。
-
支持发音修复、文本归一化自训练及指令驱动语音生成等功能,增强可控性与鲁棒性。
项目链接
https://github.com/FunAudioLLM/CosyVoice
关注「开源AI项目落地」公众号
(文:开源AI项目落地)