MiniMax推出高质量文本转语音模型MiniMax-Speech

MiniMax推出高质量文本转语音模型MiniMax-Speech,无需参考音频的文本转录即可提取音色特征,迅速成为Artificial Analysis榜单第一名。MiniMax是怎么做到的呢?背后有两大技术创新:

  • 可学习的说话人编码器:

    • 它能从一段参考音频中提取出这个说话人的独特的音色特征,而不需要这段音频对应的文本。
    • 这使得模型能够在零样本的情况下进行人声克隆,并且支持跨语言和多语言合成,避免了文本与语音之间的语义不匹配问题。
  • Flow-VAE架构:

    • 为了提高合成语音的质量和说话人相似度,MiniMax-Speech提出了一种结合变分自编码器(VAE)和流模型(flow model)的Flow-VAE架构。
    • VAE擅长学习数据的潜在表示,而流模型可以更精确地建模数据的分布。  Flow-VAE的结合使得模型能够更有效地捕捉语音中的复杂信息,从而生成更清晰、更自然、更像目标说话人的声音。

从测试的结果来看,MiniMax-Speech在语音克隆保真度及多语言和跨语言合成能力方面表现出色。

  • 语音克隆保真度:Seed-TTS测试集上,MiniMax-Speech的零样本和单样本中都实现了更低的词错误率(WER),说话人相似度(SIM)方面则是单样本最高。

  • 多语言评估:在词错误率方面,中文、英语、粤语、日语、韩语等表现要优于ElevenLabs Multilingual v2;在说话人相似度方面则是全面优于。

  • 跨语言方面:零样本在词错误率表现更优,但单样本在说话人相似度上表现更佳,表明使用提示样本可以进一步提高说话人相似度。

参考文献:
[1] 项目主页:https://minimax-ai.github.io/tts_tech_report/
[2] 论文链接:https://arxiv.org/abs/2505.07916
[3] https://github.com/MiniMax-AI



知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往