全球首创！B站推出影视级TTS语音模型，支持零样本语音+情绪双克隆，精准时长控制！

近年来，文本转语音（TTS）技术在影视配音、虚拟助手等领域需求激增，而高自然度和控制能力成为关键。

而能将 TTS 技术做到“影视级”水准的，即使在全球范围内也是屈指可数。

但近日，B站语音团队推出了全新一代语音合成模型：IndexTTS2，看名字就是知道是 IndexTTS 的升级，提供影视级音质、情绪克隆和时长控制。

他们对模型架构与训练策略进行了深度优化，解决了早期版本的 IndexTTS 在情感表达的细腻度与时长控制的精准性方面的问题。

其情绪与时长精细控制功能乃是全球首创，可根据提供的二段音频中的情绪进行独有的情绪克隆，并可根据需要进行音频长度控制。

IndexTTS2基于自回归架构，改进XTTS，核心模块包括：

IndexTTS2以零样本语音/情绪克隆和时长控制为核心，提供影视级TTS体验，支持完全本地化运行！

官方目前只放出了技术实现及细节，及相关的DEMO演示和效果对比。代码及模型权重尚未完全开放，一旦开放全球开发者都能参与到该项目中，有利于推动TTS技术更进一步。

如果你对TTS技术也感兴趣，或者正在寻找更强大的配音工具，可以期待一手IndexTTS2的正式发布。

项目地址：https://index-tts.github.io/index-tts2.github.io/

● 一款改变你视频下载体验的神器：MediaGo

● 字节把 Coze 核心开源了！可视化工作流引擎 FlowGram 上线，AI 赋能可视化流程！

● 英伟达开源语音识别模型！0.6B 参数登顶 ASR 榜单，1 秒转录 60 分钟音频！

● 开发者的文档收割机来了！这个开源工具让你一小时干完一周的活！

● PDF文档解剖术！OCR神器+1，这个开源工具把复杂排版秒变结构化数据！

（文：开源星探）