字节开源了一款多主体视频模型!掩码黑科技解锁多主体丝滑控制!

字节跳动MAGREF项目通过掩码引导机制实现了连贯多主体视频生成,支持单人、多人及人物+物品组合。该框架采用像素级通道拼接和区域感知动态掩码技术,生成自然流畅的多主体视频。

21.7K 标星的开源TTS!FishAudio开源情感语音核弹:200万小时炼成“声优AI”!

FishAudio团队发布了全新的OpenAudio S1语音模型,在TTS-Arena榜单上荣登第一名。该模型基于200万小时音频数据训练,支持50+情感标记和多种语言,提供了旗舰版S1(4B参数)和开源版S1-mini(0.5B参数)。