MM-DiT 归档 - 每时AI

免剪辑直出！AI生成多角色同框对话视频，动态路由精准绑定音频

2025年7月17日16时作者新智元

Bind-Your-Avatar是首个专注同场景多角色说话视频生成的框架，基于扩散Transformer（MM-DiT）通过细粒度Embedding路由实现精确控制。该方法构建了MTCC数据集和基准测试，并在多个指标上显著优于现有方法。

2025年6月22日11时作者路过银河AI

腾讯开源声音驱动画面模型HunyuanVideo-Avatar，能生成动态、情感可控和多角色对话视频，有望颠覆短视频直播行业。

2025年5月30日8时作者开源星探

腾讯混元与腾讯音乐联合开源的数字人音频驱动模型HunyuanVideo-Avatar，支持单或多角色对话和多种图像风格生成。通过一张人物图片和一段音频（最长14秒），生成高保真语音驱动动画，并引入了三项关键创新。