字节开源了一款多主体视频模型！掩码黑科技解锁多主体丝滑控制！

在AI驱动的视频生成领域，多主体视频生成一直是技术难题，尤其是在保持多个主体的身份一致性和场景连贯性方面。

字节跳动最新开源项目 MAGREF 通过创新的掩码引导机制（Masked Guidance），实现了基于多样化参考图像和文本提示的连贯多主体视频合成。

MAGREF 是字节跳动开源的视频生成框架，基于Wan2.1扩散模型（I2V），采用掩码引导（Masked Guidance）和像素级通道拼接，生成多主体视频。

它支持单人、多人、人物+物体+背景组合，输入参考图像和文本提示，输出720p视频。

核心能力

• 多主体一致性控制：支持多人同场景出现、精确还原各自身份特征。
• 文本 + 图像混合控制：可用文字描述 + 图像精细控制主体行为与外观。
• 掩码引导机制：区域感知动态掩码，灵活处理多人、物体、背景，实现局部主体定向修改。
• 像素拼接：通道维度像素级拼接，保留主体外观特征。
• 高视频连贯性：生成画面自然，人物/物体动作流畅，时间一致性强。

Demo展示

单主体视频生成

一位女士坐在咖啡馆的露台上，享受着一杯茶。她穿着一件浅色的衬衫，头发扎成一个髻。她面前的桌子上摆着一小盘糕点，她慢慢地啜饮着杯中的茶，细细品味着这一刻。背景中繁忙的城市街道营造出一种既活泼又轻松的氛围，人们走过，远处传来汽车的鸣笛声。

多主体视频生成

两个人在室内环境中一起自拍。男人右手伸向前方，拿着智能手机拍照。他穿着一件浅灰色西装外套和一件白色衬衫。他旁边的女人有一头长长的金发，穿着一件白色上衣。两人都笑容满面，显得愉快并沉浸在当下。背景暗示他们身处现代办公室或类似的专业环境，可以看到中性色调和绿色植物。光线明亮均匀，可能是来自头顶的荧光灯，清晰地照亮了场景，没有刺眼的阴影。

主体+物品+环境组合视频生成

一位女士站在一家商店前，身穿一件简单的黑色宽松T恤，胸前有一个小标志。T恤搭配休闲装，她自信地站立，双手空空，环顾四周的场景。

写在最后

字节跳动在 AI 领域的动作越来越多样化，不论是其闭源或开源的成果，涉及音频、图像、视频、数字人、动作模仿等诸多方面，而且实际效果在主流AI模型中也是数一数二的。

如今开源的 MAGREF 多主体视频生成框架，给开源AI社区注入了新的活力。

无论你是内容创作者、研究人员，还是开发者，MAGREF 都可以成为你构建未来“AI 视频宇宙”的理想底座之一。

GitHub 项目地址：https://github.com/MAGREF-Video/MAGREF

● 一款改变你视频下载体验的神器：MediaGo

● 字节把 Coze 核心开源了！可视化工作流引擎 FlowGram 上线，AI 赋能可视化流程！

● 英伟达开源语音识别模型！0.6B 参数登顶 ASR 榜单，1 秒转录 60 分钟音频！

● 开发者的文档收割机来了！这个开源工具让你一小时干完一周的活！

● PDF文档解剖术！OCR神器+1，这个开源工具把复杂排版秒变结构化数据！

（文：开源星探）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

核心能力

Demo展示

写在最后

发表评论 取消回复

发表评论取消回复