ICCV 2025 南开等提出REG方法,直接、高效地利用判别性信息,几十倍加速扩散模型训练!
本文提出了一种名为REG的方法,通过将低级图像潜在表示与高级类别令牌进行‘纠缠’来加速扩散模型的训练,并在ImageNet上实现了高达63倍的训练加速。
本文提出了一种名为REG的方法,通过将低级图像潜在表示与高级类别令牌进行‘纠缠’来加速扩散模型的训练,并在ImageNet上实现了高达63倍的训练加速。
全球首款AI原生UGC游戏引擎Mirage由顶尖机构联合打造,通过实时交互式’世界模型’和先进的扩散模型技术,支持玩家即时生成和控制游戏内容。它打破了传统预设游戏的限制,允许用户按照自己的想象扩展游戏世界。
字节发布多主体控制生成模型Xverse,可以精确控制多个主体的身份和语义属性。该模型包括T-Mod适配器、文本流调制机制、VAE编码图像特征模块及正则化技术等关键部分,并通过XVerseBench基准测试验证其效果。
Mercury 是一款专为聊天应用设计的扩散 LLM,其速度和效率显著提升,能够实现即时响应。Inception Labs 在 X 上宣布了这款新产品,它在性能测试中表现优异,接近 GPT-4.1 Nano 和 Claude 3.5 Haiku 等前沿模型。
两篇论文综述了从2021年至2025年开发的至少125个多模态大型语言模型,涵盖文本到图像、音乐、视频、人类动作和3D对象等多种生成任务。文章强调自监督学习、专家混合等关键技术,并提出了MLLMs融合策略和技术分析框架。
本文提出了一种双专家一致性模型DCM来解决视频生成中的一致性蒸馏问题,通过解耦语义合成与细节精修,显著减少采样步数的同时保持了较高的视觉质量。
型
Orthus,可同时生成离散文本和连续图像特征。其通过特定的扩散头和语言模型头分别处理图像和文本