首个开源AI音频驱动的「多人对话」视频生成项目,还能通过提示词控制角色动作。
MultiTalk 是 MeiGen-AI 开发的音频驱动多人对话视频生成框架,支持单人/多人对话、卡通角色生成和唱歌场景模拟。具备480p/720p灵活输出能力,最长15秒长视频生成能力,并引入优化技术提高性能。
MultiTalk 是 MeiGen-AI 开发的音频驱动多人对话视频生成框架,支持单人/多人对话、卡通角色生成和唱歌场景模拟。具备480p/720p灵活输出能力,最长15秒长视频生成能力,并引入优化技术提高性能。
ElevenLabs发布的新版TTS模型Eleven v3支持70多种语言,还能进行多人对话聊天。它通过引入音频标签控制情绪表达,并且已进入内部测试阶段。