15k星星!CosyVoice开源声音克隆TTS 3.0版本,对实际场景的音频合成支持度大幅提升。


CosyVoice系列TTS模型在24年12月份发布了2.0版本,当时效果已经很好了。


今天回看这些老开源项目,发现3.0版本也马上上线了,一起来预览一下。


3.0版本的质量是真的有很大的提升,单独拿出来一段可能感受不到,把2.0和3.0对比下就知道进步有多大。


这真不是因为3比2大,我就说3好。


我还特意打乱顺序让我同事去盲听,3.0的反馈比2.0好太多。


扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)


项目简介


CosyVoice 3 是阿里巴巴集团通义实验室语音团队研发的零样本TTS模型,实现复杂环境下的语音合成。它通过扩大训练数据规模至百万小时、增加模型参数至 15 亿,并采用多任务监督训练的语音分词器和可微分奖励优化等技术,在内容一致性、说话人相似度和韵律自然度上超越CosyVoice 2,支持 9 种语言和 18 种汉语方言。


DEMO


文章内可以放的音频数量有限,挑一个比较有代表性的中文内容。


3.0版本是理解了场景,不只是简单的声音克隆。


原音频


2.0版本


3.0版本


3.0版本知道这是在说顺口溜,所以提高了语速。


技术特点


  • 采用新型语音分词器,通过多任务监督训练(涵盖自动语音识别、语音情感识别等任务),提升韵律自然度。


  • 提出新的可微分奖励模型,适用于自身及其他基于大语言模型的语音合成模型的后训练。


  • 扩大训练数据规模至百万小时,覆盖 9 种语言、18 种汉语方言及多样场景。


  • 增加模型参数至 15 亿,提升多语言基准测试性能。


  • 支持发音修复、文本归一化自训练及指令驱动语音生成等功能,增强可控性与鲁棒性。


项目链接


https://github.com/FunAudioLLM/CosyVoice


 关注「开源AI项目落地」公众号

(文:开源AI项目落地)

发表评论