OCTAVE TTS:首个能理解说话内容的文本转语音模型

OCTAVE TTS:首个能理解说话内容的文本转语音模型。它不仅能“读”文字,还能理解语境并生成富有情感和风格的语音。亮点:

  1. 在盲测中,音频质量超71.6%的用户偏好;
  2. 自然度超51.7%的用户偏好;
  3. 能根据复杂描述生成多样化语音,如“愤怒”“惊恐”或“中年好莱坞旁白”。

参考文献:
[1] https://www.hume.ai/blog/octave-the-first-text-to-speech-model-that-understands-what-its-saying



(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往