音频驱动归档

首个开源AI音频驱动的「多人对话」视频生成项目，还能通过提示词控制角色动作。

2025年6月30日23时作者开源AI项目落地

MultiTalk 是 MeiGen-AI 开发的音频驱动多人对话视频生成框架，支持单人/多人对话、卡通角色生成和唱歌场景模拟。具备480p/720p灵活输出能力，最长15秒长视频生成能力，并引入优化技术提高性能。

2025年2月7日14时作者小兵的AI视界

INFP是字节跳动研发的一种全新的音频驱动交互式头部生成框架，它能根据双轨对话音频实时生成动态虚拟人物头像，支持多语言、唱歌模式和多种场景。研究显示其在音频-唇同步性、身份保留和动作多样性等方面表现优异。

2024年12月22日8时作者开源星探

字节最新发布的INFP是一款新颖的声控头部生成框架，支持双边互动。它能够根据输入的双轨道音频实时生成虚拟头像，并实现角色自动切换、高度真实的表情与动作同步等特性。