DiffMoE:动态Token选择助力扩散模型性能飞跃,快手&清华团队打造视觉生成新标杆!

本文介绍清华大学与快手可灵团队合作的DiffMoE研究,通过动态token选择和全局token池设计提升扩散模型效率。论文在ImageNet分类图像生成任务中仅用4.58亿参数即超越6.75亿参数的Dense-DiT-XL模型。

AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!国产交互式世界模型来了

用AI无限扩展《我的世界》,用户通过鼠标键盘即可自由探索、创作高质量虚拟内容,支持8大Minecraft场景生成。Matrix-Game模型在视觉质量、控制能力等方面超越现有开源基线。

开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题

ModelScope团队提出Nexus-Gen统一模型,融合MLMs和扩散模型能力,实现图像生成、理解与编辑。其技术细节包括预填充自回归策略和统一的数据格式定义。模型已在多个任务上取得GPT-4o级效果,并开源了训练数据、工程框架及论文。

CVPR 2025 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法

本文提出ID-Patch方案,用于解决多人图像生成中的身份特征泄露问题。通过ID Patch将身份特征转化为小尺寸RGB图像块,精确指定每个人的位置,并与文本提示共同输入增强人物面部真实性。实验结果显示其在身份还原和位置匹配上表现优秀,且生成效率快。