OCTAVE TTS:首个能理解说话内容的文本转语音模型。它不仅能“读”文字,还能理解语境并生成富有情感和风格的语音。亮点:
-
在盲测中,音频质量超71.6%的用户偏好; -
自然度超51.7%的用户偏好; -
能根据复杂描述生成多样化语音,如“愤怒”“惊恐”或“中年好莱坞旁白”。


参考文献:
[1] https://www.hume.ai/blog/octave-the-first-text-to-speech-model-that-understands-what-its-saying
(文:NLP工程化)