全球首创!B站推出影视级TTS语音模型,支持零样本语音+情绪双克隆,精准时长控制!

 

近年来,文本转语音(TTS)技术在影视配音、虚拟助手等领域需求激增,而高自然度和控制能力成为关键。

而能将 TTS 技术做到“影视级”水准的,即使在全球范围内也是屈指可数。

但近日,B站语音团队推出了全新一代语音合成模型:IndexTTS2,看名字就是知道是 IndexTTS 的升级,提供影视级音质、情绪克隆和时长控制。

他们对模型架构与训练策略进行了深度优化,解决了早期版本的 IndexTTS 在情感表达的细腻度与时长控制的精准性方面的问题。

其情绪与时长精细控制功能乃是全球首创,可根据提供的二段音频中的情绪进行独有的情绪克隆,并可根据需要进行音频长度控制。

模型能力一览

  • • 零样本语音克隆:输入一段参考语音(任何语言),即可精准模仿声线、语调、节奏,优于MaskGCT/F5-TTS。
  • • 零样本情绪克隆(可选):支持提供第二段参考语音(带情绪),可模拟愤怒、恐惧、欲望、低语等语气,这是全球首次实现。
  • • 情绪文本控制(可选):不提供参考语音也没关系,直接在文本中描述情绪(比如:“愤怒”)即可。
  • • 精准时长控制(可选):输出时长完全可控,可设定生成语音的长度,适配电影配音、时间轴同步场景,属于全球首创。
  • • 本地运行 & 开放权重:可完全离线部署,支持高隐私、高可控创作场景
  • • 中英文双语支持:中文和英文均支持。

技术细节

IndexTTS2基于自回归架构,改进XTTS,核心模块包括:

  • • 输入处理:中文字符+拼音混合建模,纠正多音字。
  • • 语音编码:Conformer条件编码器提升音色克隆稳定性。
  • • 情绪控制:Qwen3微调支持文本情绪指令,GPT潜在表示增强情绪表达。
  • • 时长控制:两种模式:指定生成帧数(精准配音)或自由生成(自然节奏)。
  • • 语音解码:BigVGAN2替换XTTS解码器,优化音质。

可应用的场景

  • • 影视剧/动画配音生成(可控节奏+情绪)
  • • 游戏角色语音克隆(只需一段台词即可复刻声线)
  • • 播客、有声书制作(自然、情感丰富)
  • • AI 数字人/虚拟助手(完全本地部署,无隐私担忧)
  • • 离线创作场景(政府、企业内部、隐私数据处理等)

写在最后

IndexTTS2以零样本语音/情绪克隆和时长控制为核心,提供影视级TTS体验,支持完全本地化运行!

官方目前只放出了技术实现及细节,及相关的DEMO演示和效果对比。代码及模型权重尚未完全开放,一旦开放全球开发者都能参与到该项目中,有利于推动TTS技术更进一步。

如果你对TTS技术也感兴趣,或者正在寻找更强大的配音工具,可以期待一手IndexTTS2的正式发布。

项目地址:https://index-tts.github.io/index-tts2.github.io/

 

● 一款改变你视频下载体验的神器:MediaGo

● 字节把 Coze 核心开源了!可视化工作流引擎 FlowGram 上线,AI 赋能可视化流程!

● 英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!

● 开发者的文档收割机来了!这个开源工具让你一小时干完一周的活!

● PDF文档解剖术!OCR神器+1,这个开源工具把复杂排版秒变结构化数据!








(文:开源星探)

发表评论