百万小时训练!这个中文TTS模型让AI播客告别”机械音”,效果堪比真人主播
MOSS-TTSD 是由清华大学语音与语言实验室开发的开源口语对话语音生成模型,支持中文和英文双语生成,并具备零样本语音克隆能力,广泛应用于 AI 播客、访谈、新闻报道等多种场景。
MOSS-TTSD 是由清华大学语音与语言实验室开发的开源口语对话语音生成模型,支持中文和英文双语生成,并具备零样本语音克隆能力,广泛应用于 AI 播客、访谈、新闻报道等多种场景。
IAA研究提出了一种全新的插件控制机制,内嵌语言模型实现多模态能力的插件化。该研究成果已被AAAI接收,并开源。IAA通过保持基座语言模型参数不变来解决灾难性遗忘问题,适用于多模态和专业任务处理。
就在刚刚,Google Deepmind 深夜放大招,发布了最新基础世界模型 Genie 2。
想体