Diffusion约2倍无损加速!训练-推理协同的缓存学习框架来了| HKUST&北航&商汤
HKUST、北航及商汤提出HarmoniCa框架,通过SDT和IEPO机制解决Diffusion模型推理速度慢和成本高的问题,实现高性能无损加速,并在多个任务中验证其有效性。
HKUST、北航及商汤提出HarmoniCa框架,通过SDT和IEPO机制解决Diffusion模型推理速度慢和成本高的问题,实现高性能无损加速,并在多个任务中验证其有效性。
两位物理学家提出扩散模型创造力源于局部性和等变性限制,他们的研究被ICML 2025收录。他们通过数学模型证明了扩散模型的去噪过程实际上孕育了其“创造力”。
本文提出了一种名为REG的方法,通过将低级图像潜在表示与高级类别令牌进行‘纠缠’来加速扩散模型的训练,并在ImageNet上实现了高达63倍的训练加速。
全球首款AI原生UGC游戏引擎Mirage由顶尖机构联合打造,通过实时交互式’世界模型’和先进的扩散模型技术,支持玩家即时生成和控制游戏内容。它打破了传统预设游戏的限制,允许用户按照自己的想象扩展游戏世界。
字节发布多主体控制生成模型Xverse,可以精确控制多个主体的身份和语义属性。该模型包括T-Mod适配器、文本流调制机制、VAE编码图像特征模块及正则化技术等关键部分,并通过XVerseBench基准测试验证其效果。
Mercury 是一款专为聊天应用设计的扩散 LLM,其速度和效率显著提升,能够实现即时响应。Inception Labs 在 X 上宣布了这款新产品,它在性能测试中表现优异,接近 GPT-4.1 Nano 和 Claude 3.5 Haiku 等前沿模型。
两篇论文综述了从2021年至2025年开发的至少125个多模态大型语言模型,涵盖文本到图像、音乐、视频、人类动作和3D对象等多种生成任务。文章强调自监督学习、专家混合等关键技术,并提出了MLLMs融合策略和技术分析框架。