15k星星！CosyVoice开源声音克隆TTS 3.0版本，对实际场景的音频合成支持度大幅提升。

CosyVoice系列TTS模型在24年12月份发布了2.0版本，当时效果已经很好了。

今天回看这些老开源项目，发现3.0版本也马上上线了，一起来预览一下。

3.0版本的质量是真的有很大的提升，单独拿出来一段可能感受不到，把2.0和3.0对比下就知道进步有多大。

这真不是因为3比2大，我就说3好。

我还特意打乱顺序让我同事去盲听，3.0的反馈比2.0好太多。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目简介

CosyVoice 3 是阿里巴巴集团通义实验室语音团队研发的零样本TTS模型，实现复杂环境下的语音合成。它通过扩大训练数据规模至百万小时、增加模型参数至 15 亿，并采用多任务监督训练的语音分词器和可微分奖励优化等技术，在内容一致性、说话人相似度和韵律自然度上超越CosyVoice 2，支持 9 种语言和 18 种汉语方言。

DEMO

文章内可以放的音频数量有限，挑一个比较有代表性的中文内容。

3.0版本是理解了场景，不只是简单的声音克隆。

原音频

2.0版本

3.0版本

3.0版本知道这是在说顺口溜，所以提高了语速。

技术特点

采用新型语音分词器，通过多任务监督训练（涵盖自动语音识别、语音情感识别等任务），提升韵律自然度。
提出新的可微分奖励模型，适用于自身及其他基于大语言模型的语音合成模型的后训练。
扩大训练数据规模至百万小时，覆盖 9 种语言、18 种汉语方言及多样场景。
增加模型参数至 15 亿，提升多语言基准测试性能。
支持发音修复、文本归一化自训练及指令驱动语音生成等功能，增强可控性与鲁棒性。

项目链接

https://github.com/FunAudioLLM/CosyVoice

关注「开源AI项目落地」公众号

（文：开源AI项目落地）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

发表评论取消回复