比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

论文提出MMaDA,首个系统性探索扩散架构的多模态基础模型,实现文本推理、多模态理解与图像生成的统一建模。该模型在多任务协同上表现出色,并通过混合长链思维微调和统一策略梯度优化提升性能。

策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式

金天和郑鈺熹是麻省理工学院的博士生,他们研究了大语言模型生成范式的转变。PASTA 论文介绍了通过策略学习实现异步生成的方法,包括标记语言 PASTA-LANG 和优化训练流程。实验结果表明这种方法能显著提高推理速度并保持输出质量。

何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%

大神何恺明发布新作《Mean Flows for One-step Generative Modeling》,提出一种名为 MeanFlow 的单步生成建模框架,通过引入平均速度的概念,在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散/流模型的结果,FID 分数达到3.43。